- 1テストのときにはずれた統計量が出ると、それは、何かしらの分布に照らしてp値化することになる。FDRのBH法もそのようにして出したp値がたくさん得られたときの話だった
- たくさんのテストを並列に実施するとp値だけでなくて、統計量自体がたくさん得られて、それが分布をとるし、しかも、極端なところ(tail)の情報もそれなりに得られる
- この章はそんなtail部分に着目する話
- 5.1 Estimating the Local False Discovery Rate
- 統計量について帰無仮説と対立仮説の混合分布があり、それはたくさんのデータから推定できる
- また、ある割合を持つ帰無仮説の分布も推定できる
- 2つの分布の差分が取れる
- 統計量ごとに帰無:対立の割合が決まる
- それに応じて、「極端側からあるFDRがある値になるように」閾値を決めることができる
-
- 全体のヒストグラムを描き、その両端について、珍しさの割合がムラサキ色にしてある。この割合が個々の統計量の「結果値」
library(locfdr)
data(lfdrsim)
zex <- lfdrsim[, 2]
par(mfcol=c(2,2))
w0 <- locfdr(zex,nulltype=0)
w1 <- locfdr(zex,nulltype=1)
plot(w0$fdr,w1$fdr)
- 5.2 Poisson Regression Estimates for f(z)
- 混合分布を推定すると前節で書いたが、どう推定するかは問題になる
- 指数分布族の和を使ってパラメタの最尤推定をする方法がある
- ここでは指数分布族の一つであるポアソン分布に回帰してやる
- locfdr()ではデフォルトでJ=7個を併せたもので推定している
- Lindsey's method(たぶんこれ)ではポアソン回帰でこれがうまくできるのだそう
- この方法でtail部分の滑らかさが大事になる
- 5.3 Inference and Local False Discovery Rates
- "Local"というのはある統計量について、そこでの帰無・対立割合が知りたいということ
- 幅で区切って、そこに「何件観察されると予測されるか」の数と「実際の観察件数」とでその比を出すというのも手だが、それだとでこぼこするので、「実際の観察件数」をスムージングする(予測件数は指数分布族の混合にしている段階ですでにスムーズ)
- 5.4 Power Diagnostics