マルチプルテスティング

ぱらぱらめくるselective inference論文

Selective inferenceは「データを眺めることで、説明変数を絞りこみ(selectionし)、そのうえで絞り込んだ変数について推定(inference)することにするが、そのときselectionがinferenceに影響するので、どうするのがよいのかを考えよう」と言ってよいでしょう…

SNVスタディのための基礎

2015年度の修士向け講義は、「基礎の基礎」に戻ります(こちら) 日本人類遺伝学会の教育講演も、それに沿った話にします そのためのメモ こちらに図などがうまくいっていないかもしれないepub(文書の散逸防止のためにkindleにも置いています。以下のRmdファイ…

マルチプルテスティングとFDR〜オミックス統計学入門2014

2014年度講義資料 FDRとマルチプルテスティング 90分で1-2回分相当 Rmdファイルです。html化、epub化できます(やり方はこちら) html化、epub化が面倒くさければ、kindleで1米ドルでも(こちら) マルチプルテスティングとFDR?オミックス統計学2014_4? 統計遺伝…

偽陽性率

今、検査をしている検査センターがある 偽陽性率がpという 検査センターでは、検査を続けている このセンターで、N回の検査をしたとき、そのうち、1件でも偽陽性である確率は である このセンターでどんなに検査の精度をよくして(pを小さくして)も、Nが多く…

一番小さいp値 n回の独立検定を考える その最小p値の分布を考える ある値xより小さいp値が出ない確率は 今、十分に小さいxを考えるとき、の1次の近似を用いて、となる 一方、ある確率変数yがに従うとき、なる関係にある変数は、なる分布をとることが知ら…

話題を分布関数を使って収束させる

疾患のモデル化で多段階を持ち込んだ結果、ポアッソン仮定の累積からガンマ分布が出てくることが、こちらの記事とそれにつながってきた一連の記事やこちらの記事に書いた 一方、マルチプルテスティングで出てくる、小さなp値の分布がとる分布が二項分布から…

検定を繰り返したときのことを説明する 2

昨日の続き こちらやこちらの記事を参考にする N個の一様乱数でa未満の乱数がk-1個である確率 それの微分がN個の一様乱数で第k番目に小さい乱数の値がaである確率 これをRで、行列やapply()を使ってコンパクトに計算してプロットする # カットオフp値はベク…

検定を繰り返したときのことを説明する

たくさんのp値を均一分布から発生させる k個のp値の最小値の期待値がであることの確認 N<-10000 k<-5 Xs<-matrix(runif(N*k),N,k) Mins<-apply(Xs,1,min) mean(Mins) 1/(k+1) k個のp値のうちのi番目に小さい値の期待値がであることの確認 N<-1000 k<-10 Xs<…

互いに等距離

ある点から等距離にある点の集合は(超)球をなす 相互に等距離にあるk個の点はk-1次元空間に配置することができて、それは(正)単体をなす(正三角形・正四面体・・・一般化) 今、k次元空間にある、単位超球(半径1の球)面の点を位置座標とするk次元ベクトルを…

観察しやすいテーブル

ある少なくない標本数で、多数のマーカーを調べ、マーカーについて検定を繰り返すことが、GWASでは行われる 言い換えると、巨大な(標本数xマーカー数)の疎な観測テーブルについて、多数の低自由度検定を実施していることになる この論文で示したように、こ…

evd 極値分布パッケージ

繰り返し観察の極端な値(最大1時間降水量とか。多重検定の最大統計量とかも・・・)の確率密度分布は極値分布と呼ばれる分布になることが知られている その形は、一般に、3つのパラメタ(location:,scale:,shape:)で規定される、以下の式で表される この一般式…

オッズ比のマルチプルテスティング補正

たくさんのマーカーで関連検定を行うと、たくさんのp値が出る。今、が出て、ゲノムワイドスキャンの文脈でも、有意な関連であるとみなされたとする。 言い換えると、ゲノムワイドスキャンの文脈では(マルチプルテスティング補正後のp値が、通常のα閾値をク…

マルチプルテスティング補正に多変量正規分布

Am.J.Hum.Genet 81 1158-1168(2007) by KN Conneely and M Boehnke So Many Correlated Tests, So Little Time! Rapid Adjustment of P Vaoues for Multiple Correlated Tests. こちらサマリー GWAにおいては、複数テスト間の相互関係はいろいろである。マー…

多重検定を重層的に繰り返したとき(6)Mantel-Haenszelは自由度=層数のカイ自乗統計量の1次元投影量である

この日の記事の問題点は 『統計量を考えたこと』 独立事象について、生起確率を掛け合わせることと、P値(生起確率の累積)を掛け合わせることとは別物であるから。以下の記述は、この点について問題があることに留意しつつ、積分その他については、メモとして…

多重検定を重層的に繰り返したとき(5)

この日の記事の問題点は 『統計量を考えたこと』 独立事象について、生起確率を掛け合わせることと、P値(生起確率の累積)を掛け合わせることとは別物であるから。以下の記述は、この点について問題があることに留意しつつ、積分その他については、メモとして…

多重検定を重層的に繰り返したとき(4)

この日の記事の問題点は 『統計量を考えたこと』 独立事象について、生起確率を掛け合わせることと、P値(生起確率の累積)を掛け合わせることとは別物であるから。以下の記述は、この点について問題があることに留意しつつ、積分その他については、メモとして…

多重検定を重層的に繰り返したとき(3)

この日の記事の問題点は 『統計量を考えたこと』 独立事象について、生起確率を掛け合わせることと、P値(生起確率の累積)を掛け合わせることとは別物であるから。以下の記述は、この点について問題があることに留意しつつ、積分その他については、メモとして…

多重検定を重層的に繰り返したとき)(2)

この日の記事の問題点は 『統計量を考えたこと』 独立事象について、生起確率を掛け合わせることと、P値(生起確率の累積)を掛け合わせることとは別物であるから。以下の記述は、この点について問題があることに留意しつつ、積分その他については、メモとして…

多重検定を重層的に繰り返したとき

未証明→ この日の記事の問題点は 『統計量を考えたこと』 独立事象について、生起確率を掛け合わせることと、P値(生起確率の累積)を掛け合わせることとは別物であるから。以下の記述は、この点について問題があることに留意しつつ、積分その他については、メ…

価値の高い場合に集中する

マルチプルテスティング補正において頑健な手法としてパーミュテーションテストがある。GWAにおいても形質のラベルシャッフリングの全順列を調べ上げる方法と、全順列は多すぎるので、モンテカルロ・シミュレーションにより、順列を抽出チェックすることで、…

へのフィット(続きの続きの続き)

これに先立つ記事は7月10日(こちら)、14日(こちら)。 そこで登場した、尤度、累積尤度をシミュレートして雰囲気をつかむためのエクセルはこちら。 デフォルトでは、1000個(N)の独立一様乱数(0-1)の最小値を100回サンプリング(計1000x100 乱数)し、その100個…

へのフィット(続きの続き)

最小P値の期待値、 今、N個の独立サンプルの最小P値がk回観測されたとする。その観測のもとでの、Nの最尤推定値は という特別な場合は Nの最尤推定値が1となるのは、 k=1回の観測p値が0.5の場合、N=1の場合の尤度もN=2の場合の尤度も1であるが、それは こ…

へのフィット(続き)

これに先立つ記事は7月10日(こちら) 独立テスト相当数をとしたときにを観測する尤度は、である。 この尤度関数のnに関する不定積分。 メモ書きをとりあえずここへ。となっているがとするべき箇所が散見される ただし、、 は漸化式になっていて、

へのフィット

M回の相互に独立ではないかもしれないテストを行ったときに得られる最小の検定P値について考える。 もしM回の非独立なテストが、N回の独立なテストに相当するとみなせるとする。 このとき、FWERの考え方から、最小のP値の累積確率はで表される。 これを微分…

検出限界

検体数が少ないとき、どんなに帰無仮説から遠い観測結果を得ても、いわゆるP値が有意水準を越えないことはよく知られている。フィッシャーの正確確率検定で頻繁にP=1となることはこれを表している。 今、フィッシャーの正確確率検定P値と同様に、離散的な分…