Joint analysis (Staged design of association study)



  • Skol AD et al. Joint analysis is more efficient than replication-based analysis for two-stage genome-wide association studies. 2006 Nat Genet 38(2):209-13 リンクはこちら
  • Staged design
    • サンプルの数(N)が多い。マーカーの数(M)も多い。このようなとき、NxMのタイピングをするのは労多くしてそれに見合う利益が伴わないだろうことは容易に想像がつく。一部のサンプルですべてののマーカーに探りを入れて、有望なマーカーにのみ多くのサンプルをつぎ込むのは正しいやり方に思われる。このように、NxMのタイピングをする代わりに、段階を追って、N数を増やし、M数を減らすのがstaged design
  • Joint analysis
    • Staged designでは、N1xM1 + N2xM2 (2段階の場合)のタイピングデータが得られる。この情報を使って、個々のマーカーについてどのように統計量を計算するか、その有意水準をどうするか、というのが次の問題である。第1段階と第2段階をJointして統計量を算出する方法として提案されているので、"Joint analysis"である
    • Joint analysisでは、そのモデルの単純化のために次のことを仮定して論を進める(進めた後で、その単純な設定からの逸脱を評価すればよい)
      • (1) ケースとコントロールの総サンプル数は等しい
      • (2) 各段階には、ケースとコントロールとで、等しい数のサンプルを用いる
    • この仮定は、単純な(1段階のみの)ケースコントロール関連検定のときにも用いている仮定であり、Joint analysis,staged analysisでは、それを多段階で要求しているだけである
    • この仮定のもとでは、次のことが言える
      • (a) ステージiについて、2x2分割表を作る。アレル頻度での検定をするとして、この分割表から、ケースのアレル頻度(の推定値)がp_{case}、コントロールのアレル頻度(の推定値)がp_{control}、両方を併せたアレル頻度(の推定値(帰無仮説の下でのアレル頻度(の推定値))が、p_{null}とし、ケースの総人数がN_{case}、そのうち、ステージiのケースの割合が¥pi_{i,case}、コントロールの総人数がN_{control}、そのうちステージiの割合が¥pi_{i,control}と書き表し、また、ケースとコントロールの人数の総和に対するステージiのケース・コントロールの人数和の割合を¥pi_{i,sum}と表すと、帰無仮説のもとでの、Z値z_i=¥frac{p_{case}-p_{cont}}{¥sqrt{¥frac{p_{case}(1-p_{case})}{2N_{case}¥pi_{i,case}}+{¥frac{p_{control}(1-p_{control})}{2N_{control}¥pi_{i,control}}}は、サンプルサイズが大きいとき、標準正規分布に従う。この式において、ケースデータのアレル頻度の推定値とコントロールデータでのアレル頻度の推定値が用いられているが、分母で用いているアレル頻度推定値に、両群の合算データでの推定値p_{null}を用いるとその式は、z_i^{’}=¥frac{p_{case}-p_{cont}}{¥sqrt{p_{null}(1-p_{null})(¥frac{1}{(2N_{case}¥pi_{i,case})} + ¥frac{1}{(2N_{control}¥pi_{i,control})})}となる。このz_i^{’}の値の自乗は、ステージiにおける2x2分割表から算出したカイ自乗値に等しく、それぞれを標準正規分布において対応させたp値と、自由度のカイ自乗分布から得るp値とは等しい
      • (b)正規分布には再生性という特徴がある。これは、(i) XN(¥mu,¥sigma^2)に従っている時、その線形変換Y=aX+bN(a¥mu+b,a^2¥sigma^2)に従う、と言い表せる。また、すべての正規分布は標準正規分布に線形変換できる。これは、(ii) XがN(¥mu,¥sigma^2)に従っている時、その線形変換分布 Z=(X-¥mu)/¥sigma正規分布N(0,1)に従う、と書き表せる。このことから、各ステージのZ_iの一次線形和で、標準正規分布となるものがある。
    • この複数の正規分布からの一次線形和で、標準正規分布となるものは、(ii)の¥sigmaの作用に注意すれば、2段階解析においては、¥pi_{1,sum} + ¥pi_{2,sum}=1であるから、z_u=¥sqrt{¥pi_{1,sum}} ¥times z_1 + ¥sqrt{¥pi_{2,sum}} ¥times z_2が標準正規分布となることがわかる。
    • この一般式はz_u=¥sum_{i=1}^{K} ¥sqrt{¥pi_{i,sum}} ¥times z_i
    • このz_uは、すべてのステージについて足し合わせた観測データにから作成した2x2分割表から算出したzの値に一致する
      • ただし、その一致の条件は、帰無仮説でのアレル頻度は、全データの観測度数からモーメント法で求めた値であること(この値が、帰無仮説での最尤推定量)、ケースとコントロールのサンプル数の比がすべてのステージにおいて等しい場合である。
      • この関係を確認するためのエクセルはこちら(ベータ版。自分のメモ用)
        • ここでの評価はあくまでも、全ステージでのケース・コントロールサンプルサイズが等しい場合。それを、拡張した場合については、本記事および、本記事からリンクしたエクセルともに、考慮していないことに注意
        • サンプルサイズの不均衡などについての若干のメモは、こちら
  • Type I error と Type II errorの評価
    • 上述の通り、Multi-stage joing analysisにおいては、全ステージについて通算したデータについての検定統計量z_uが、各ステージにおける検定統計量z_iの線形和になっていることがわかる。問題は、この統計量を用いて、Multi-stageでの複数(多数)マーカーの有意水準と検出力を定義することである(が、それは、論文の記載がすでに短くできる限り短くしてあるので、そちらを参照のこと)