Joint analysis (Staged design of association study)
- Skol AD et al. Joint analysis is more efficient than replication-based analysis for two-stage genome-wide association studies. 2006 Nat Genet 38(2):209-13 リンクはこちら
- Staged design
- サンプルの数(N)が多い。マーカーの数(M)も多い。このようなとき、NxMのタイピングをするのは労多くしてそれに見合う利益が伴わないだろうことは容易に想像がつく。一部のサンプルですべてののマーカーに探りを入れて、有望なマーカーにのみ多くのサンプルをつぎ込むのは正しいやり方に思われる。このように、NxMのタイピングをする代わりに、段階を追って、N数を増やし、M数を減らすのがstaged design
- Joint analysis
- Staged designでは、N1xM1 + N2xM2 (2段階の場合)のタイピングデータが得られる。この情報を使って、個々のマーカーについてどのように統計量を計算するか、その有意水準をどうするか、というのが次の問題である。第1段階と第2段階をJointして統計量を算出する方法として提案されているので、"Joint analysis"である
- Joint analysisでは、そのモデルの単純化のために次のことを仮定して論を進める(進めた後で、その単純な設定からの逸脱を評価すればよい)
- この仮定は、単純な(1段階のみの)ケースコントロール関連検定のときにも用いている仮定であり、Joint analysis,staged analysisでは、それを多段階で要求しているだけである
- この仮定のもとでは、次のことが言える
- (a) ステージiについて、2x2分割表を作る。アレル頻度での検定をするとして、この分割表から、ケースのアレル頻度(の推定値)が、コントロールのアレル頻度(の推定値)が、両方を併せたアレル頻度(の推定値(帰無仮説の下でのアレル頻度(の推定値))が、とし、ケースの総人数が、そのうち、ステージiのケースの割合が、コントロールの総人数が、そのうちステージiの割合がと書き表し、また、ケースとコントロールの人数の総和に対するステージiのケース・コントロールの人数和の割合をと表すと、帰無仮説のもとでの、Z値は、サンプルサイズが大きいとき、標準正規分布に従う。この式において、ケースデータのアレル頻度の推定値とコントロールデータでのアレル頻度の推定値が用いられているが、分母で用いているアレル頻度推定値に、両群の合算データでの推定値を用いるとその式は、となる。このの値の自乗は、ステージiにおける2x2分割表から算出したカイ自乗値に等しく、それぞれを標準正規分布において対応させたp値と、自由度のカイ自乗分布から得るp値とは等しい
- この関係を確認するためのエクセルはこちら(ベータ版、自分のメモ用)
- (b)正規分布には再生性という特徴がある。これは、(i) がに従っている時、その線形変換はに従う、と言い表せる。また、すべての正規分布は標準正規分布に線形変換できる。これは、(ii) Xがに従っている時、その線形変換分布 は正規分布N(0,1)に従う、と書き表せる。このことから、各ステージのの一次線形和で、標準正規分布となるものがある。
- (a) ステージiについて、2x2分割表を作る。アレル頻度での検定をするとして、この分割表から、ケースのアレル頻度(の推定値)が、コントロールのアレル頻度(の推定値)が、両方を併せたアレル頻度(の推定値(帰無仮説の下でのアレル頻度(の推定値))が、とし、ケースの総人数が、そのうち、ステージiのケースの割合が、コントロールの総人数が、そのうちステージiの割合がと書き表し、また、ケースとコントロールの人数の総和に対するステージiのケース・コントロールの人数和の割合をと表すと、帰無仮説のもとでの、Z値は、サンプルサイズが大きいとき、標準正規分布に従う。この式において、ケースデータのアレル頻度の推定値とコントロールデータでのアレル頻度の推定値が用いられているが、分母で用いているアレル頻度推定値に、両群の合算データでの推定値を用いるとその式は、となる。このの値の自乗は、ステージiにおける2x2分割表から算出したカイ自乗値に等しく、それぞれを標準正規分布において対応させたp値と、自由度のカイ自乗分布から得るp値とは等しい
- この複数の正規分布からの一次線形和で、標準正規分布となるものは、(ii)のの作用に注意すれば、2段階解析においては、であるから、が標準正規分布となることがわかる。
- この一般式は
- (b)に関する記載はこちらを参照
- このは、すべてのステージについて足し合わせた観測データにから作成した2x2分割表から算出したの値に一致する
- Type I error と Type II errorの評価
- 上述の通り、Multi-stage joing analysisにおいては、全ステージについて通算したデータについての検定統計量が、各ステージにおける検定統計量の線形和になっていることがわかる。問題は、この統計量を用いて、Multi-stageでの複数(多数)マーカーの有意水準と検出力を定義することである(が、それは、論文の記載がすでに短くできる限り短くしてあるので、そちらを参照のこと)