第7限 ケース・コントロール関連検定・単一SNPでの関連検定
- ローカスの強さの指標とその検定-他のデータ解析・検定と同様に、「強さ」と「統計的有意差」からなる
- 「強さ」も「統計的有意差」も算出する方法はある。問題は、何を比較したいか(何を比較しないか)を了解してから実行することである
- 関連範囲の絞込みにおいては、ケース・コントロール2群につき、アレル本数を比較(アレル頻度比較)する。その上で、感受性のオリジンに迫ったら、ジェノタイプ別の「強さ」やそのパターンなどについて調べる。Haploviewは関連領域の絞込みのみを念頭においている。
- ただし、関連範囲の絞込みにおいても、アレル本数の比較のみでは取りこぼす危険性については留意して実行すること。
- ローカスの強さはオッズ比で評価し、その統計的有意差を分割表検定する
- Haploviewでは、データ入力ウィンドウで"Do association test"を選ぶと、関連検定が行われる。アレル頻度比較の2x2分割表検定カイ自乗検定で行われ、カイ自乗値とそのP値が表示される。いきなり結果だけが表示されるので、こちらのエクセルで分割表検定について確認する。
- オッズ比
- 分割表検定
- アレル頻度検定
- 2x2分割表、自由度1のカイ自乗検定(2x2分割表の4つの数の期待値のすべてが5以上の場合)
- Fisherの正確検定(分割表の4つの数の多寡によらない)
- ジェノタイプ頻度検定
- アレル頻度検定
- オッズ比の信頼区間と分割表検定
- オッズ比の算出値は観測データから母集団のオッズ比を推定した値であり、母集団の真のオッズ比は、観測データから算出したオッズ比を含むある範囲にあると推定されたことになる。通常信頼区間としては95%上限・下限が示されるが、これは、母集団の真のオッズ比は95%の確率で上限-下限の範囲に収まると推定した、ということを意味する。言い換えると、5%の確率で上限より大きいか、下限より小さいと推定した、ということになる。以下で分割表検定について述べるが、それと信頼区間との関係は次の通り
- 感受性アレルのオッズ比の95%信頼区間の下限が1.0であるということは、分割表検定でP=0.05が得られるということと同じである。99%信頼区間の信頼区間の下限が1.0であるということは、分割表検定でP=0.01が得られるということと同じである(ただし、信頼区間の算出時に近似が用いられ、カイ自乗検定自体も近似であるから誤差は出る)
- 例を試すとすると、SNPデータの分割表検定エクセルファイルURL(こちら)にて、入力セル(水色)のケース11に900、ケース12に0、ケース22に100、コントロール11に872、コントロール12に0、コントロール22に128を入れると中段のχsq (11/12+22)=のp値が0.04883、下の方のOR(11/22)の下限値が1.00となる。入力セルの値を1ずつ動かすとp値と下限値が動く。また、ついでに、サンプル数とP値・信頼区間の関係も次のようにして確認すること。はじめに入力した値は、ケース・コントロールともに1000人ずつであった。上記の観測人数の比率(900 vs 100, 872 vs 128)を変えずにケース数・コントロール数を変える(たとえば10倍、0.1倍など)すると、P値・信頼区間ともに増減する。人数を増やした場合、95%信頼区間の下限値を1.0に近づけるためには、ORを1に近づけなければいけないことも確認。
- オッズ比の算出値は観測データから母集団のオッズ比を推定した値であり、母集団の真のオッズ比は、観測データから算出したオッズ比を含むある範囲にあると推定されたことになる。通常信頼区間としては95%上限・下限が示されるが、これは、母集団の真のオッズ比は95%の確率で上限-下限の範囲に収まると推定した、ということを意味する。言い換えると、5%の確率で上限より大きいか、下限より小さいと推定した、ということになる。以下で分割表検定について述べるが、それと信頼区間との関係は次の通り