構造化集団データにおけるランダマイゼーションテスト(論文紹介)

論文
A randomization test for controlling population stratification in whole-genome association studies.
Kimmel G, Jordan MI, Halperin E, Shamir R, Karp RM.
Am J Hum Genet. 2007 Nov;81(5):895-905

■ 方法
●大規模SNPジェノタイプデータをもとにサブジェクトをクラスターに分ける
 Eigenstratの上位2アイゲンベクトル座標上の点をK-means clustering http://en.wikipedia.org/wiki/K-means_clustering にて分離

クラスターごとに有病者割合が異なるので、クラスター別にフェノタイプラベルシャッフリング割付けを行う(ランダマイゼーション割付け)
 通常のパーミュテーション(ラベルの取替え)ではなく、有病者割合に基づく確率的割付け
 割付けごとに、関連統計量をマーカーごとに算出して、ランダマイゼーション-ベースの(パーミュテーション様-ベースの)Pを算出する
  ランダマイゼーションの場合わけが多いので、インポータンスサンプリングを採用する。さらに、インポータンスサンプリングを効率化するべく、ダイナミックプログラミングを援用する

■ Genomic control(GC)法、Eigenstrat法との比較
●HAPMAPの3民族データから構造化データをシミュレーションして適用
 False-positive 率比較にあたっては、500人対500人、39000SNP
 パワー比較にあたっては、1000人対1000人、39000SNP、関連陽性マーカーは、rr=1.5 multiplicative model
●当該手法のPは、マルチプルテスティング補正後のP、GC法、Eigenstrat法については、構造化補正後のPをボンフェロニ補正したPで、3法を比較。
●比較結果
 ▲ False-positive率
  帰無仮説下のデータにつき、マルチプルテスティング補正後のPが有意(<0.05、GC法、Eigenstratの場合には、0.05/39000~10^(-6))となるマーカーが出現するかどうかを、100試行にて計算。
  当該手法では、補正後P<0.05の出現確率が0.05程度であるのに対し、GC法、Eigenstrat法では、ケース・コントロール間の構造化の違いの程度に応じて、高率となる。
   GCでは、ある一定以上の構造化の差がある場合に、ほぼ確実にP<0.05が出現。Eigenstratでは、構造化の差の程度と量的依存性を持って、出現
   論文 Fig1
   ※ GC法、Eigenstrat法では、保守的なマルチプルテスティング補正(ボンフェロニ)をしているので、同補正をより適切に行った場合には、増幅される可能性がある。
   ※ 構造化のもととなる民族が極端に異なること、ケースコントロール間の構造化の差の設定が高度であることなど、実用上の留意点はある。
 
 ▲ パワー
  GCはケースコントロール間の構造化の差の程度によらず、一貫して弱い(構造化の情報を利用しない手法なので、当然。。。)
  当該手法とEigenstrat法では、構造化の差が小さいほど、パワーも高い。そのトレンドは、両法で同様だが、若干当該手法の方がEigenstrat法より高い傾向がある。
  論文 Fig2
   ※ ただし、Eigenstrat法のマルチプルテスティング補正は保守的(ボンフェロニ)を採用しているので、この差は無視されるべきかもしれない。