FDR
昨日の記事はKnockoff 変数を用いたFDRの制御の話 FDRといえば、Benjamini-Hochbergもある これは、「ある閾値で変数の取捨選択をするとする」ときに、すべの変数が帰無仮説OK変数だったとした場合に、何個の変数がFalselyに帰無仮説を棄却するかの期待個…
資料はこれ(基本)とこれ(GWAS等への拡張) Rのパッケージはknockoffで、そのgithubがこちら 考え方の基本 FDRをしたい 多変量解析をしていて、いくつかの変量は従属変量に意味のある寄与があり、残りの変量は意味がない、というように振り分けたい その振り分…
日本語総説 m <- 100 u <- 50 v <- m-u n1 <- 100 n2 <- 100 my.means <- function(m,u,M,S){ m1 <- rep(0,m) m2 <- c(rep(0,m-u),rnorm(u,M,S)) return(cbind(m1,m2)) } M <- 0.1 S <- 1 ms <- my.means(m,u,M,S) my.X <- function(m,u,M,S,n1,n2){ ms <- m…
何かしらの観測をしたときに、観測値から真値を推定しようとしている。今、何の事前情報もなければ、観測値そのものが真値である尤度が最も高い。単一対象に関する、無情報を前提とした最尤推定値が得られる。 一方、真値について事前分布を置き、観測値と真…
データ解析の3時代区分 記述統計 実験/介入結果の解釈(ピアソン・フィッシャー・ノイマン・ホテリング) 大規模データの解釈 この本で目指すこと 大規模データ手法の共通基盤となる考え方の説明 Empirical Bayesと呼ぶ FDRが先例 この分野は未解決問題がある…
こちらでFDRに絡めて、この本の元ネタ資料をぱらぱらめくってある 再度、めくりなおすことにする Large-Scale Inference: Empirical Bayes Methods for Estimation, Testing, and Prediction (Institute of Mathematical Statistics Monographs)作者: Bradle…
Selective inferenceは「データを眺めることで、説明変数を絞りこみ(selectionし)、そのうえで絞り込んだ変数について推定(inference)することにするが、そのときselectionがinferenceに影響するので、どうするのがよいのかを考えよう」と言ってよいでしょう…
2015年度の修士向け講義は、「基礎の基礎」に戻ります(こちら) 日本人類遺伝学会の教育講演も、それに沿った話にします そのためのメモ こちらに図などがうまくいっていないかもしれないepub(文書の散逸防止のためにkindleにも置いています。以下のRmdファイ…
2014年度講義資料 FDRとマルチプルテスティング 90分で1-2回分相当 Rmdファイルです。html化、epub化できます(やり方はこちら) html化、epub化が面倒くさければ、kindleで1米ドルでも(こちら) マルチプルテスティングとFDR?オミックス統計学2014_4? 統計遺伝…
こちらでENCODEプロジェクトの駆け足読み記事を書いている そのThread 02 でFDRという用語が出てくる たくさんの検定をやるシチュエーション 「ほぼすべての検定が帰無仮説に従っている」とみなすなら、ボンフェロニとかFWER的なマルチプルテスティング補正…
著者のページ
この文書の数ページはかいつまんで書いてあるのだけれど、かいつまみ過ぎてついていきにくかったので、この文書の流れではなく再整理→こちら
帰無:対立の比率だけが数字でるだけではやはり足りない どのくらいの強さの因子なの?という話 それを個別に評価するのでなく、全体を使って個別のEffect sizeを。
解析構造が複雑になってきて、階層的にテストしたり…Permutationなどが強い世界 10.1 The Multi-Class Model 10.2 Small Subclasses and Enrichment 10.3 Relevance 10.4 Are Separate Analyses Legitimate? 10.5 Comparability
遺伝子を束ねてパスウェイ解析 9.1 Randomization and Permutation 9.2 Efficient Choice of a Scoring Function 9.3 A Correlation Model 9.4 Local Averaging
FDRの話ではなく、塊のデータがあるときに気にすることについての話 Correlationを評価することで、推定値のaccuracyなども算出する(前章) 8.1 Row and Column Correlations もちろん気にする。クラスタリングしたりする対象だし 8.2 Estimating the Root Me…
この後は、細部とかMicroarray の話一般、てな感じになってきますが… FDR,local FDRで数字を出したら、それって、信頼区間は?という話になるのはよくある話 リサンプリングするのも手 せっかくベイズで来たのだから、「理論」や「パーミュテーション(replac…
ラージデータがあるなら、「理論」を信じるより実分布をみた方がよい 帰無仮説の分布はわかる、でも、たいていは帰無仮説に従っていない 6.1 Four examples 6.2 Empirical Null Estimation 観測データからNull分布を推定することに関する理論的説明 Empirica…
1テストのときにはずれた統計量が出ると、それは、何かしらの分布に照らしてp値化することになる。FDRのBH法もそのようにして出したp値がたくさん得られたときの話だった たくさんのテストを並列に実施するとp値だけでなくて、統計量自体がたくさん得られて…
FDRというのは、「何をもって閾値を決めるか」の態度の一つ。FDRと異なる態度が「タイプIエラー率を(たとえば)0.05にする」という態度。FDRの態度はそれとは違って、別のものをコントロールしようとしている 4.1 True and False Discoveries たくさんのテスト…
古めの手法を見ておこう 3.1 p-Values and z-Values 1つのテストのために作られている たくさん並行してテストしたら分布を見ておかないと 特に、1つのテストで保守的に立ちつつ検定するようにできている(ことが多い)ので、たくさんをならべたときに、それ…
21世紀に入って「ハイスループット」の時代。その要請としてLarge-scale hypothesis testing に対応する手法が生まれている。この関係は、Fisherの時代の農業の近代化の要請に似ている 2.1 A Microarray Example 数千以上の遺伝子、数十以上のサンプル…とい…
考え方は1950年代に遡るが、同時並行でたくさんのデータ解析を行うようになって実問題に適用されるにいたった。その最初の適用対象がマイクロアレイ・体系的発現解析 (ベイズ)推定なのか、検定なのかの区別なども問題になる 1.1 ベイズ規則と多変量正規分布…
資料(Stats 329) 目次 Chapter 1 Empirical Bayes and the James-Stein Estimator Chapter 2 Large-Scale Hypothesis Testing Chapter 3 Significance Testing Algorithms Chapter 4 False Discovery Rate Control Chapter 5 Local False Discovery Rates Ch…
FDRでは複数の検定統計量が与えられたときに、個々の検定について、「帰無仮説に合致しているか」「対立仮説に合致しているか」をfdr : 1-fdrという値で示す fdrが小さいほど、対立仮説により強く合致することを示す(検定p値も小さいほど、対立仮説らしさが…
こちらの続き 普通の場合(1つの帰無仮説と1つの対立仮説を想定した場合) 帰無仮説ではm.null、対立仮説ではm.altであるとする 今から、調べようとしているのだが、帰無仮説が成り立つ確率をpnull、対立仮説が成り立つ仮説をpalt (pnull + palt = 1)と考え…
FWER法では、最小p値が補正後も有意になるかならかないかの程度だが、FDR法では、小さいp値をとっている検定のうちのある画分が、補正後も0-1の範囲に散らばり、その中には、有意になるものがあるんではないかい、というp値の分布になる # fdr法で補正する f…
昨日の続き マイクロアレイデータをクラスタリングした フェノタイプと検定して、FDR補正してみる # サンプル数 Ns <- 500 # マーカー数 Nm <- 1000 # サンプルのパターン数(群数) Ns.pt <- 10 # マーカーのパターン数(群数) Nm.pt <- 10 # サンプル・マーカ…
こちらも #まず、pの小さめなデータを作る Niter<-1000 library(Rassoc) st<-rep(0,Niter) p<-rep(0,Niter) for(i in 1:Niter){ af<-runif(1)*0.6+0.2 delta<-rnorm(1) af1<-af+af*0.05*delta af2<-af-af*0.05*delta case<-sample(c(0,1,2),1000,c(af1^2,2*a…
大規模データ・複雑データを一括してシンプルに扱うことを念頭に置いたメモ。 パーミュテーションテストについては、こちら、FDRについては、こちら、のそれぞれ、前掲記事と関連している。 SNP data の処理 0 データ構成 マーカー数 M サンプル数 N(ケース…