RでFDR

  • こちらでENCODEプロジェクトの駆け足読み記事を書いている
  • そのThread 02 でFDRという用語が出てくる
  • たくさんの検定をやるシチュエーション
  • 「ほぼすべての検定が帰無仮説に従っている」とみなすなら、ボンフェロニとかFWER的なマルチプルテスティング補正をする(GWASの場合)が、対立仮説が真であるのがたくさんある(少なくともこれくらいはある)というような場合(2群の多数の遺伝子の発現差・発現比〜体系的発現解析)には、それだとうまくないe
  • FDRはそういう経緯でマイクロアレイの体系的発現解析での利用が(ゲノム解析系では)スタート
  • 今や、FDR関連の諸ツール・パッケージはこんな感じに山ほどある
  • リストにはないけれど、ごく簡単にはp.adjust()があるが(こちら)…それはp値の分布に対するもの
  • たとえば、locfdrパッケージのlocfdr()関数はたくさんの統計量を放り込むと、そこに(1)正規分布を想定して(2)経験分布を推定して、そのうえで、外れている統計量がどれくらいはずれているかで珍しさを値にしてくれる

  • 全体のヒストグラムを描き、その両端について、珍しさの割合がムラサキ色にしてある。この割合が個々の統計量の「結果値」
library(locfdr)
data(lfdrsim)
zex <- lfdrsim[, 2]
par(mfcol=c(2,2))
# 正規分布を仮定
w0 <- locfdr(zex,nulltype=0)
# 仮定しない
w1 <- locfdr(zex,nulltype=1)
# 2方法のp値の関係を見る
plot(w0$fdr,w1$fdr)