2006-09-12

Joint analysis (Staged design of association study)

スクリーニング SNP 関連解析統計

Skol AD et al. Joint analysis is more efficient than replication-based analysis for two-stage genome-wide association studies. 2006 Nat Genet 38(2):209-13 リンクはこちら
- 同論文で実行されている検出力等の計算アプリケーションのダウンロードサイトへのリンクはこちら
Staged design
- サンプルの数(N)が多い。マーカーの数(M)も多い。このようなとき、NxMのタイピングをするのは労多くしてそれに見合う利益が伴わないだろうことは容易に想像がつく。一部のサンプルですべてののマーカーに探りを入れて、有望なマーカーにのみ多くのサンプルをつぎ込むのは正しいやり方に思われる。このように、NxMのタイピングをする代わりに、段階を追って、Ｎ数を増やし、Ｍ数を減らすのがstaged design
Joint analysis
- Staged designでは、N1xM1 + N2xM2 (２段階の場合)のタイピングデータが得られる。この情報を使って、個々のマーカーについてどのように統計量を計算するか、その有意水準をどうするか、というのが次の問題である。第１段階と第２段階をJointして統計量を算出する方法として提案されているので、"Joint analysis"である
- Joint analysisでは、そのモデルの単純化のために次のことを仮定して論を進める(進めた後で、その単純な設定からの逸脱を評価すればよい)
  - (1) ケースとコントロールの総サンプル数は等しい
  - (2) 各段階には、ケースとコントロールとで、等しい数のサンプルを用いる
- この仮定は、単純な(１段階のみの)ケースコントロール関連検定のときにも用いている仮定であり、Joint analysis,staged analysisでは、それを多段階で要求しているだけである
- この仮定のもとでは、次のことが言える
  - (a) ステージiについて、２ｘ２分割表を作る。アレル頻度での検定をするとして、この分割表から、ケースのアレル頻度(の推定値)が、コントロールのアレル頻度(の推定値)が、両方を併せたアレル頻度(の推定値(帰無仮説の下でのアレル頻度(の推定値))が、とし、ケースの総人数が、そのうち、ステージiのケースの割合が、コントロールの総人数が、そのうちステージiの割合がと書き表し、また、ケースとコントロールの人数の総和に対するステージiのケース・コントロールの人数和の割合をと表すと、帰無仮説のもとでの、Z値は、サンプルサイズが大きいとき、標準正規分布に従う。この式において、ケースデータのアレル頻度の推定値とコントロールデータでのアレル頻度の推定値が用いられているが、分母で用いているアレル頻度推定値に、両群の合算データでの推定値を用いるとその式は、となる。このの値の自乗は、ステージiにおける２ｘ２分割表から算出したカイ自乗値に等しく、それぞれを標準正規分布において対応させたp値と、自由度のカイ自乗分布から得るp値とは等しい
    - この関係を確認するためのエクセルはこちら(ベータ版、自分のメモ用)
  - (b)正規分布には再生性という特徴がある。これは、(i) $X$ が $N(￥mu,￥sigma^2)$ に従っている時、その線形変換 $Y=aX+b$ は $N(a￥mu+b,a^2￥sigma^2)$ に従う、と言い表せる。また、すべての正規分布は標準正規分布に線形変換できる。これは、(ii) Xが $N(￥mu,￥sigma^2)$ に従っている時、その線形変換分布 $Z=(X-￥mu)/￥sigma$ は正規分布N(0,1)に従う、と書き表せる。このことから、各ステージの $Z_i$ の一次線形和で、標準正規分布となるものがある。
- この複数の正規分布からの一次線形和で、標準正規分布となるものは、(ii)の $￥sigma$ の作用に注意すれば、2段階解析においては、 $￥pi_{1,sum} + ￥pi_{2,sum}=1$ であるから、 $z_u=￥sqrt{￥pi_{1,sum}} ￥times z_1 + ￥sqrt{￥pi_{2,sum}} ￥times z_2$ が標準正規分布となることがわかる。
- この一般式は
  - (b)に関する記載はこちらを参照
- このは、すべてのステージについて足し合わせた観測データにから作成した２ｘ２分割表から算出したの値に一致する
  - ただし、その一致の条件は、帰無仮説でのアレル頻度は、全データの観測度数からモーメント法で求めた値であること(この値が、帰無仮説での最尤推定量)、ケースとコントロールのサンプル数の比がすべてのステージにおいて等しい場合である。
  - この関係を確認するためのエクセルはこちら(ベータ版。自分のメモ用)
    - ここでの評価はあくまでも、全ステージでのケース・コントロールサンプルサイズが等しい場合。それを、拡張した場合については、本記事および、本記事からリンクしたエクセルともに、考慮していないことに注意
    - サンプルサイズの不均衡などについての若干のメモは、こちら。
Type I error と Type II errorの評価
- 上述の通り、Multi-stage joing analysisにおいては、全ステージについて通算したデータについての検定統計量 $z_u$ が、各ステージにおける検定統計量 $z_i$ の線形和になっていることがわかる。問題は、この統計量を用いて、Multi-stageでの複数(多数)マーカーの有意水準と検出力を定義することである(が、それは、論文の記載がすでに短くできる限り短くしてあるので、そちらを参照のこと)