第9限 ケース・コントロール関連検定・多点解析補正



今、2つのSNP(SNP_A,SNP_B)があるとする。次の4つの場合を考える

  • (1)SNP_AとSNP_Bとは異なる染色体上にある(連鎖不平衡には(絶対に)ない、SNP_AのジェノタイプがわかってもSNP_Bのジェノタイプが何であるか、予想ができない)
  • (2)SNP_AとSNP_Bとは、同じ遺伝子上にあるが、連鎖不平衡関係にない(SNP_AのジェノタイプがわかってもSNP_Bのジェノタイプが何であるか、予想ができない)
  • (3)SNP_AとSNP_Bとは、同じ遺伝子上にあり、LD指標r^2=1で完全連鎖している(すべての検体でSNP_AのジェノタイプとSNP_Bのジェノタイプが同一である)
  • (4)SNP_AとSNP_Bとは、同じ遺伝子上にあり、ある程度の連鎖不平衡関係にある
  • (1)の場合
    • 偶然にSNP_Aでp<0.01となるようなカイ自乗値(単一検定のカイ(p=0.01))を得る確率は0.01である。
    • 同様に、偶然にSNP_Bでp<0.01となるようなカイ自乗値(単一検定のカイ(p=0.01))を得る確率は0.01である。
    • したがって、SNP_Aか、SNP_Bかで、偶然に単一検定のカイ(p=0.01)を得る確率は0.01+0.01=0.02である。したがって、このように相互に無関係の2SNPのそれぞれでカイ自乗値を計算したとき、その値が、単一検定のカイ(p=0.01)以上になる確率は0.02である。
    • これはすなわち、このように相互に無関係の2SNPで別個にカイ自乗値を算出したら、偶然のせいである確率が2倍になっているのだから、帰無仮説は0.01で棄却されるのではなく、0.01で棄却するべきである
    • この補正方法がBnferroniの補正である。独立したn個の検定においては、単一の検定に比べて、p値をn倍にする、というもので、補正の方法として最も保守的である
  • (2)の場合
    • この場合は、SNP_AとSNP_Bの存在位置が近くなっただけ(連鎖不平衡の可能性が高まっただけ)で、実際には、2つのSNPのカイ自乗値には、なんら、相関がないから、やはりBonferroni補正をする必要がある
  • (3)の場合
    • この場合は、もしこの2つのSNPが相互に完全連鎖であることがわかっていたら、SNP_Aだけアッセイしただろう。言い換えると、SNP_AとSNP_Bの両方をアッセイして両方で検定をすることと、SNP_Aだけをアッセイしそれだけで検定することには、差がないということである。したがって、SNP_AとSNP_Bとで同一のカイ自乗値が得られ、それに対する単一検定のp値が得られるが、このp値は本来、補正しなくてよいはずである。
  • (4)の場合
    • この場合は(2)と(4)の間である。したがって、SNP_A、SNP_Bのそれぞれで得られたカイ自乗値とそれに対する単一検定のp値が得られたとき、補正p値は元のp値の1倍から2倍の間にするのが妥当と考えられる。SNP_A−SNP_Bの連鎖不平衡の強さが弱ければ元のp値に近く、強ければ2倍に近くするのも妥当である。しかし、正確な数値はわからない。これが2SNPではなく、もっと多数のSNPになったときは、さらに、正確な補正項はわかりにくい。
  • Permutation test
    • 上述したように、相互に連鎖不平衡関係にある複数のSNPでそれぞれ検定統計量(カイ自乗値)を算出した場合、その統計量が示すp値は、単一SNPの場合のp値の1倍からSNP数倍に補正してやる必要がある。その補正項を計算する代わりに、補正p値を算出するのがPermutation testである
    • 具体的には次のようにする
      • 観測データについて、複数の統計量を算出する(n個のSNPについて、n個のアレル頻度比較のカイ自乗検定値を算出してもよいし、n個のSNPがつくるm種類のハプロタイプについて、m個のカイ自乗検定値を算出してもよい)
      • 今、ケース集団とコントロール集団の間に差がない、という帰無仮説を検定しているのであるから、得られたケース・コントロールサンプルを、ケース・コントロールの区別をせずに、ケース・コントロールに割付けしなおし、観測データから算出したのと同じ複数の統計量を算出する
      • 再割付・再算出を多数回(k回)繰り返す
      • 今、複数の統計量の中で『もっとも値の大きいもの』に着目すると、k個の数値が得られた。このk個の数値の分布は、「ケース・コントロール群間に差がないときに得られる値の確率分布」になっている。したがって、この分布において、観測データから得られた、『もっとも値の大きいもの』がどのくらいの位置にあるかが『真のp値』に相当する。
      • この方法の説明からもわかるとおり、k=100とすれば、得られる『真のp値』は0.01,0.02,...のいずれか(0.01刻み)であり、K=10000とすれば、0.0001,0.0002,...のように0.0001刻みとなる
      • Haploviewでは、複数SNPについてと複数ハプロタイプについて、permutation 補正した値を提示する