Chapter 5 Local False Discovery Rates ぱらぱらめくる『Large-Scale Simultaneous Inference (講義@Stanford)』

  • 1テストのときにはずれた統計量が出ると、それは、何かしらの分布に照らしてp値化することになる。FDRのBH法もそのようにして出したp値がたくさん得られたときの話だった
  • たくさんのテストを並列に実施するとp値だけでなくて、統計量自体がたくさん得られて、それが分布をとるし、しかも、極端なところ(tail)の情報もそれなりに得られる
  • この章はそんなtail部分に着目する話
  • 5.1 Estimating the Local False Discovery Rate
    • 統計量について帰無仮説と対立仮説の混合分布があり、それはたくさんのデータから推定できる
    • また、ある割合を持つ帰無仮説の分布も推定できる
    • 2つの分布の差分が取れる
    • 統計量ごとに帰無:対立の割合が決まる
    • それに応じて、「極端側からあるFDRがある値になるように」閾値を決めることができる

    • 全体のヒストグラムを描き、その両端について、珍しさの割合がムラサキ色にしてある。この割合が個々の統計量の「結果値」
library(locfdr)
data(lfdrsim)
zex <- lfdrsim[, 2]
par(mfcol=c(2,2))
# 正規分布を仮定
w0 <- locfdr(zex,nulltype=0)
# 仮定しない
w1 <- locfdr(zex,nulltype=1)
# 2方法のp値の関係を見る
plot(w0$fdr,w1$fdr)
  • 5.2 Poisson Regression Estimates for f(z)
    • 混合分布を推定すると前節で書いたが、どう推定するかは問題になる
    • 指数分布族の和f(z)= exp{\sum_{j=0}^J \beta_j z^j}を使ってパラメタの最尤推定をする方法がある
    • ここでは指数分布族の一つであるポアソン分布に回帰してやる
    • locfdr()ではデフォルトでJ=7個を併せたもので推定している
    • Lindsey's method(たぶんこれ)ではポアソン回帰でこれがうまくできるのだそう
    • この方法でtail部分の滑らかさが大事になる
  • 5.3 Inference and Local False Discovery Rates
    • "Local"というのはある統計量について、そこでの帰無・対立割合が知りたいということ
    • 幅で区切って、そこに「何件観察されると予測されるか」の数と「実際の観察件数」とでその比を出すというのも手だが、それだとでこぼこするので、「実際の観察件数」をスムージングする(予測件数は指数分布族の混合にしている段階ですでにスムーズ)
  • 5.4 Power Diagnostics
    • Rejectされるべきがどれくらいの確率でrejectされるかをもってFDRのパワーとする