FDR

FDR: Benjamini-Hockberg

昨日の記事はKnockoff 変数を用いたFDRの制御の話 FDRといえば、Benjamini-Hochbergもある これは、「ある閾値で変数の取捨選択をするとする」ときに、すべの変数が帰無仮説OK変数だったとした場合に、何個の変数がFalselyに帰無仮説を棄却するかの期待個…

Knockoff 変数によるFDR

資料はこれ(基本)とこれ(GWAS等への拡張) Rのパッケージはknockoffで、そのgithubがこちら 考え方の基本 FDRをしたい 多変量解析をしていて、いくつかの変量は従属変量に意味のある寄与があり、残りの変量は意味がない、というように振り分けたい その振り分…

FDR

FDR

日本語総説 m <- 100 u <- 50 v <- m-u n1 <- 100 n2 <- 100 my.means <- function(m,u,M,S){ m1 <- rep(0,m) m2 <- c(rep(0,m-u),rnorm(u,M,S)) return(cbind(m1,m2)) } M <- 0.1 S <- 1 ms <- my.means(m,u,M,S) my.X <- function(m,u,M,S,n1,n2){ ms <- m…

1 Empirical Bayes and the James-Stein Estimator:もう一度ぱらぱらめくる『Large-Scale Inference』

何かしらの観測をしたときに、観測値から真値を推定しようとしている。今、何の事前情報もなければ、観測値そのものが真値である尤度が最も高い。単一対象に関する、無情報を前提とした最尤推定値が得られる。 一方、真値について事前分布を置き、観測値と真…

Foreword:もう一度ぱらぱらめくる『Large-Scale Inference』

データ解析の3時代区分 記述統計 実験/介入結果の解釈(ピアソン・フィッシャー・ノイマン・ホテリング) 大規模データの解釈 この本で目指すこと 大規模データ手法の共通基盤となる考え方の説明 Empirical Bayesと呼ぶ FDRが先例 この分野は未解決問題がある…

もう一度ぱらぱらめくる『Large-Scale Inference』

こちらでFDRに絡めて、この本の元ネタ資料をぱらぱらめくってある 再度、めくりなおすことにする Large-Scale Inference: Empirical Bayes Methods for Estimation, Testing, and Prediction (Institute of Mathematical Statistics Monographs)作者: Bradle…

ぱらぱらめくるselective inference論文

Selective inferenceは「データを眺めることで、説明変数を絞りこみ(selectionし)、そのうえで絞り込んだ変数について推定(inference)することにするが、そのときselectionがinferenceに影響するので、どうするのがよいのかを考えよう」と言ってよいでしょう…

SNVスタディのための基礎

2015年度の修士向け講義は、「基礎の基礎」に戻ります(こちら) 日本人類遺伝学会の教育講演も、それに沿った話にします そのためのメモ こちらに図などがうまくいっていないかもしれないepub(文書の散逸防止のためにkindleにも置いています。以下のRmdファイ…

マルチプルテスティングとFDR〜オミックス統計学入門2014

2014年度講義資料 FDRとマルチプルテスティング 90分で1-2回分相当 Rmdファイルです。html化、epub化できます(やり方はこちら) html化、epub化が面倒くさければ、kindleで1米ドルでも(こちら) マルチプルテスティングとFDR?オミックス統計学2014_4? 統計遺伝…

RでFDR

FDR R

こちらでENCODEプロジェクトの駆け足読み記事を書いている そのThread 02 でFDRという用語が出てくる たくさんの検定をやるシチュエーション 「ほぼすべての検定が帰無仮説に従っている」とみなすなら、ボンフェロニとかFWER的なマルチプルテスティング補正…

Appendix B Data Sets and Programs ぱらぱらめくる『Large-Scale Simultaneous Inference (講義@Stanford)』

著者のページ

Appendix A Exponential Families ぱらぱらめくる『Large-Scale Simultaneous Inference (講義@Stanford)』

この文書の数ページはかいつまんで書いてあるのだけれど、かいつまみ過ぎてついていきにくかったので、この文書の流れではなく再整理→こちら

Chapter 11 Prediction and Effect Size Estimation ぱらぱらめくる『Large-Scale Simultaneous Inference (講義@Stanford)』

帰無:対立の比率だけが数字でるだけではやはり足りない どのくらいの強さの因子なの?という話 それを個別に評価するのでなく、全体を使って個別のEffect sizeを。

Chapter 10 Combination, Relevance, and Comparability ぱらぱらめくる『Large-Scale Simultaneous Inference (講義@Stanford)』

解析構造が複雑になってきて、階層的にテストしたり…Permutationなどが強い世界 10.1 The Multi-Class Model 10.2 Small Subclasses and Enrichment 10.3 Relevance 10.4 Are Separate Analyses Legitimate? 10.5 Comparability

Chapter 9 Sets of Cases (Enrichment) ぱらぱらめくる『Large-Scale Simultaneous Inference (講義@Stanford)』

遺伝子を束ねてパスウェイ解析 9.1 Randomization and Permutation 9.2 Efficient Choice of a Scoring Function 9.3 A Correlation Model 9.4 Local Averaging

Chapter 8 Correlation Questions ぱらぱらめくる『Large-Scale Simultaneous Inference (講義@Stanford)』

FDRの話ではなく、塊のデータがあるときに気にすることについての話 Correlationを評価することで、推定値のaccuracyなども算出する(前章) 8.1 Row and Column Correlations もちろん気にする。クラスタリングしたりする対象だし 8.2 Estimating the Root Me…

Chapter 7 Estimation Accuracy ぱらぱらめくる『Large-Scale Simultaneous Inference (講義@Stanford)』

この後は、細部とかMicroarray の話一般、てな感じになってきますが… FDR,local FDRで数字を出したら、それって、信頼区間は?という話になるのはよくある話 リサンプリングするのも手 せっかくベイズで来たのだから、「理論」や「パーミュテーション(replac…

Chapter 6 Theoretical, Permutation and Empirical Null Distributions ぱらぱらめくる『Large-Scale Simultaneous Inference (講義@Stanford)』

ラージデータがあるなら、「理論」を信じるより実分布をみた方がよい 帰無仮説の分布はわかる、でも、たいていは帰無仮説に従っていない 6.1 Four examples 6.2 Empirical Null Estimation 観測データからNull分布を推定することに関する理論的説明 Empirica…

Chapter 5 Local False Discovery Rates ぱらぱらめくる『Large-Scale Simultaneous Inference (講義@Stanford)』

1テストのときにはずれた統計量が出ると、それは、何かしらの分布に照らしてp値化することになる。FDRのBH法もそのようにして出したp値がたくさん得られたときの話だった たくさんのテストを並列に実施するとp値だけでなくて、統計量自体がたくさん得られて…

Chapter 4 False Discovery Rate Control ぱらぱらめくる『Large-Scale Simultaneous Inference (講義@Stanford)』

FDRというのは、「何をもって閾値を決めるか」の態度の一つ。FDRと異なる態度が「タイプIエラー率を(たとえば)0.05にする」という態度。FDRの態度はそれとは違って、別のものをコントロールしようとしている 4.1 True and False Discoveries たくさんのテスト…

Chapter 3 Significance Testing Algorithms ぱらぱらめくる『Large-Scale Simultaneous Inference (講義@Stanford)』

古めの手法を見ておこう 3.1 p-Values and z-Values 1つのテストのために作られている たくさん並行してテストしたら分布を見ておかないと 特に、1つのテストで保守的に立ちつつ検定するようにできている(ことが多い)ので、たくさんをならべたときに、それ…

Chapter 2 Large-Scale Hypothesis Testing ぱらぱらめくる『Large-Scale Simultaneous Inference (講義@Stanford)』

21世紀に入って「ハイスループット」の時代。その要請としてLarge-scale hypothesis testing に対応する手法が生まれている。この関係は、Fisherの時代の農業の近代化の要請に似ている 2.1 A Microarray Example 数千以上の遺伝子、数十以上のサンプル…とい…

Chapter 1 Empirical Bayes and the James-Stein Estimator ぱらぱらめくる『Large-Scale Simultaneous Inference (講義@Stanford)』

考え方は1950年代に遡るが、同時並行でたくさんのデータ解析を行うようになって実問題に適用されるにいたった。その最初の適用対象がマイクロアレイ・体系的発現解析 (ベイズ)推定なのか、検定なのかの区別なども問題になる 1.1 ベイズ規則と多変量正規分布…

ぱらぱらめくる『Large-Scale Simultaneous Inference (講義@Stanford)』

資料(Stats 329) 目次 Chapter 1 Empirical Bayes and the James-Stein Estimator Chapter 2 Large-Scale Hypothesis Testing Chapter 3 Significance Testing Algorithms Chapter 4 False Discovery Rate Control Chapter 5 Local False Discovery Rates Ch…

BH法とlocal FDR法

FDRでは複数の検定統計量が与えられたときに、個々の検定について、「帰無仮説に合致しているか」「対立仮説に合致しているか」をfdr : 1-fdrという値で示す fdrが小さいほど、対立仮説により強く合致することを示す(検定p値も小さいほど、対立仮説らしさが…

対立仮説に分布を想定したときのPPV

こちらの続き 普通の場合(1つの帰無仮説と1つの対立仮説を想定した場合) 帰無仮説ではm.null、対立仮説ではm.altであるとする 今から、調べようとしているのだが、帰無仮説が成り立つ確率をpnull、対立仮説が成り立つ仮説をpalt (pnull + palt = 1)と考え…

FDR補正とFWER補正とを比較する

FWER法では、最小p値が補正後も有意になるかならかないかの程度だが、FDR法では、小さいp値をとっている検定のうちのある画分が、補正後も0-1の範囲に散らばり、その中には、有意になるものがあるんではないかい、というp値の分布になる # fdr法で補正する f…

p.adjust()関数を使う

昨日の続き マイクロアレイデータをクラスタリングした フェノタイプと検定して、FDR補正してみる # サンプル数 Ns <- 500 # マーカー数 Nm <- 1000 # サンプルのパターン数(群数) Ns.pt <- 10 # マーカーのパターン数(群数) Nm.pt <- 10 # サンプル・マーカ…

RでFDR(BH法)

R FDR

こちらも #まず、pの小さめなデータを作る Niter<-1000 library(Rassoc) st<-rep(0,Niter) p<-rep(0,Niter) for(i in 1:Niter){ af<-runif(1)*0.6+0.2 delta<-rnorm(1) af1<-af+af*0.05*delta af2<-af-af*0.05*delta case<-sample(c(0,1,2),1000,c(af1^2,2*a…

メモ

大規模データ・複雑データを一括してシンプルに扱うことを念頭に置いたメモ。 パーミュテーションテストについては、こちら、FDRについては、こちら、のそれぞれ、前掲記事と関連している。 SNP data の処理 0 データ構成 マーカー数 M サンプル数 N(ケース…