第2限 個々のSNPジェノタイプデータの評価



個々のSNPについて、ケース・コントロール別にジェノタイプ観測人数がカウントされ、その結果、homo,hetero,counter-homo,unknownの4コール x 2サンプル群 の8数が得られる。

  • ケース・コントロール関連解析を行う前提
    • 有効コール率・不明コール率の確認
    • ケース・コントロール別のHardy-Weinberg平衡検定結果の確認
  • 母集団のアレル頻度を適当に変え、また、疾患感受性多型のジェノタイプ別相対危険度を適当に変えた上で、ランダムサンプリングをシミュレートするエクセルファイルはこちら
  • コントロール(HWEの母集団からのランダムサンプリング)でのHWEの結果とケース(相対危険度の指定の具合によっては、ケース集団はHWEにない)でのHWEの結果とを比べること。ケース集団でHWEからずれるのは、homozygote-RR が heterozygote-RRの自乗からはずれている場合である。
  • この確認にあたっては、Haploviewを使ってもよいが、より簡便には、こちらを使用すること。
  • また、Hardy-Weinberg平衡とその検定についてはこちらこちらを参照せよ
  • ケース母集団においてはHWEから逸脱している可能性があるが、一般母集団においては原則HWEから逸脱していることはないような多型を解析対象としているはずであるから、もしコントロールサンプルにおいてHWEからの逸脱を認めたら、サンプリングしなおすなどの対処が必要である。もし、一般母集団においてHWEから逸脱しており、それがpopulation subdivisionのためであるなど、解析に組み込むことが必要な場合には、Admixtureマッピングstructure考慮の解析などをする必要がある
  • 検定方法
    • 従来から用いられている、カイ自乗検定と、Abecasisらによる、正確検定がある。
    • カイ自乗検定は、ジェノタイプ別観測数と観測アレル頻度からHWE仮定のもとでのジェノタイプ別観測期待数の差を自由度1で検定するものである。解説は、Pak Sham 著 Statistics in human genetics(記事はこちら)の39ページを参照。また、上記で示した、エクセルファイルはこの方法で出した値である。
    • Abecasisらの正確検定は、カイ自乗検定よりもp値が大きめで出る(HWEが棄却されにくい)方法である。簡単には、Heterozygosityが期待値以上の場合にはP=1、期待値よりも小さい場合にP<1となる。ヘテロ個体数が観測数以下になる場合を数え上げてP値として返す方法である。オリジナルのペーパーはこちら。ソースはこちらで、Rのもある(こちら)ので、確認が簡便である。『Hardy-Weinberg calculation code courtesy of Goncalo Abecasis and Jan Wigginton at the University of Michigan Center for Statistical Genetics 』とHaploviewホームページに記載があるので、Haploviewで表示されるのは、Abecasisらの正確検定の結果と思われるが、AbecasisらのホームページのRソースでの解析結果とHaploviewでの解析結果に不一致がある。どちらが(も)正しくないかの確認はまだ取れていない。少なくともカイ自乗検定法よりもP値が大きくでるのは、Abecasis'Rもhaploviewも同様のようである。
  • 不明データの扱い
    • 不明データはないにこしたことはないが、あるとした場合に、気をつけることはなにか
      • ランダムに発生した不明コールは、解析に中立な立場なので問題は小さい
      • 系統的に発生した不明コールは、結果の解釈を難しくする
        • 検体によって不明コールの多寡がある。
          • その理由が、サンプリング・検体調整・アッセイ条件・コールシステムなどを通じて、その他の条件と相関がある場合には、さらに解釈は困難になる。
        • ジェノタイプ・ハプロタイプによって不明コールの多寡がある。
          • アッセイ条件・周辺多型の影響などにより、特定のジェノタイプ・特定のハプロタイプの場合に不明コールが多く発生するなどの偏りの影響について留意する。