Chapter 2 Large-Scale Hypothesis Testing ぱらぱらめくる『Large-Scale Simultaneous Inference (講義@Stanford)』

  • 21世紀に入って「ハイスループット」の時代。その要請としてLarge-scale hypothesis testing に対応する手法が生まれている。この関係は、Fisherの時代の農業の近代化の要請に似ている
  • 2.1 A Microarray Example
    • 数千以上の遺伝子、数十以上のサンプル…というようなマイクロアレイデータ。たとえば2群の比較
    • 個別の遺伝子ならt検定(もしくはt統計量を正規分布変換してz統計量)
    • それが「たくさんの遺伝子」に関してパラレル
    • ボンフェロニ補正をするのは古典的なやり方
  • 2.2 Bayesian Approach
    • ケース・コントロール間で差が無い遺伝子群と差がある遺伝子群に分けて、その合わさったもの(混合分布)がデータとして出ているとみなす
    • パラメトリック正規分布を使う(ったりする)
    • その上で、検定統計量の分布がどうなるかを問題にし、検定統計量ごとに、真に帰無仮説が成り立っている割合と、真に対立仮説が成り立っている割合とを定めることは可能
    • この「真には帰無仮説が成り立つ割合」のことをBenjamini and HochbergのベイズFDRと言う
      • 横軸が左よりのとき、ほぼ確実に黒、右寄りなら、ほぼ確実に赤、赤黒が混ざっているあたりでは、横軸の値が決まっても、赤と判断するか黒と判断するかが曖昧になる。その曖昧な程度を勘案して判断する、という話
    • 対立仮説を「これだ」と決めて考えれば以下の通り(z.altを作る時点で仮説を決め打ちにしている)

p <- 0.3
N <- 1000
z.null <- rnorm(N*p,0,1)
z.alt <- rnorm(N*(1-p),3,1)
z <- c(z.null,z.alt)
hist(z)
h <- c(rep(1,N*p),rep(2,N*(1-p)))
ord <- order(z)
plot(jitter(z[ord],1000),col=h[ord],cex=0.1)
  • 2.3 Empirical Bayes Estimates
    • 上述のFDRで考えるには、帰無仮説の分布、対立仮説の分布、対立仮説の占める割り合いの3つを決めないといけない
      • 帰無仮説の分布は、まずまず決められる
      • 対立仮説の占める割合も、まあ、これくらいとするか、という思い切りで決まりそう
      • 最後に残るのが、対立仮説の分布をどうするか、という問題(前節では対立仮説を決め打ちにしていた)
    • Empirical Bayesでは、混合分布(帰無仮説の分布と対立仮説の分布とその混合比が作る分布)を観測値の分布で代用してしまおう、と考える。標本数が多ければそれでよさそうだ
    • 使えるのは観測値の分布と、標本が全部帰無仮説を満足していたら、の2つの分布の異同
    • 帰無仮説に近いあたりの観察はすべて帰無仮説由来だろうと考えれば、そのあたりに観測されている標本数から、帰無仮説が全体に占める比率の推定ができそうであり、それがわかれば、ある閾値より外側に、どれくらい帰無仮説を満足する標本(検定)があるかがわかる。その数は「対立仮説が真だとすると、False positive になる数」になる
  • 2.4 \bar{Fdr}(z) as a point estimate
  • zの値ごとに「帰無仮説か対立仮説か、どっちが本当か」の比率も出せる
  • 2.5 Independence versus Correlation
    • 実データでは個々の標本(検定)が独立であるとの仮定はできないことが多い(ほとんど)
  • 2.6 Learning from the Experience of Others II