Multiple testing
Many genes Many features Many biomarkers 検索結果 Sparse cells with 5 markers grid; one cubicle only has 1 cell in average. It is too sparse to estimate density in a regular way. No center, no common individuals N <- 10^4 x <- runif(N)-0.5…
When you test multiple times, you should not believe nominal p-values of individual tests. 検定を複数行った場合には、個々の検定のp値をそのまま使って解釈できない p <- runif(10^5) hist(p) plot(sort(p),pch=20,cex=0.1) alpha <- 0.05 abline(v=l…
2006年12月5日の記事に、この件を書いた。そのときは、FWERの考え方と微分の考え方から、 なる式を示した。 昨日もその別の考え方を書いた。 もうひとつの考え方としては、こう。 N=2のとき、xy平面上の1辺の長さが1の正方形を考える。頂点を{0,0,0},{0,1,…
2006年12月5日の記事に、この件を書いた。そのときは、FWERの考え方と微分の考え方から、 なる式を示した。 この式の由来を幾何学的に考える。 均一確率分布からの独立なN回のサンプリングは、辺の長さが1のN次元立方体からのサンプリングであると考える。…
順序統計 ノン‐パラ 均一分布→ベータ分布 Robust estimations L-Estimate(Linear combinations of order statistics) M-Estimate R-Estimate
Extreme Value Theory 稀なことはおきにくいが、『正規分布近似』で予想するより起き易い("Heavy-tailed data") この「ずれているtail」の近似は"tail-fitting"問題 Extreme value theorem The first extreme value theorem The second extreme value theore…
今、N個の値の集合があるとする。それらをn個ずつk個の部分集合に分ける。 今、全体N個の中での、順番がi番目の値が、n個の部分集合内で、1番になる確率は、どうなるだろうか。 また、このようにして選ばれる、k個の部分集合内の1番の値の期待値はいくつに…
なる累積確率密度分布のときの、N独立試行の最小P値の期待値は のとき のとき この2式は、統計量の最大値が、のときは1で、のときはであることに注意して、この記事に沿った式展開をして得られる式に一致する。また、地道に式変形(後述)しても同様に得られ…
上記の記事を利用して、累積確率密度分布がなる統計量(最小値が0、最大値が1)の期待値、および、それをN回ランダムに繰り返したときに得られる最小の統計量の期待値を求めてみる。 N回ランダムに繰り返したときに、以下の値が1回もない確率はである。少な…
12月11日の記事で、線形近似式が出てきて、その式が、多項展開とその積分の便宜のために、ちょっと複雑になっていた。 また、累積密度関数の近似式を得る作業の途中であり、(0,0),(1,1)を通るような線形近似式を得るためのソースが必要になっている。 準備1…
ここは部分積分を用いるともっとずっと簡単でした→こちら 12月5日に、均一分布からのN回サンプリングの最小値の期待値についての記事を、12月7日にその拡張である、N回サンプリングのときの第k番目の値の期待値についての記事を書いた。 今日の記事は、不均…
12月5日の記事(こちら)に、N回の独立検定を行ったときに得られる最小P値の期待値がとなることを示した。今日の記事では、同様に行ったときに得られる、第k番目に小さいP値の期待値がとなることを示す。 均一な確率密度分布はで与えられる。 N回の独立サンプ…
均一な確率密度分布はで与えられる。 N回の独立サンプリングをしたときに以下の値が1回以上起きる確率は、FWERの考え方から示される通り、 (記事はこちら) 今、N試行中、が最小値であるということは、以下の試行が1回以上であって、以下の試行が0回である…
N個の独立な検定を行って、そのP値を昇順にソートし、横軸に1からNまでの自然数を、縦軸にP値をとると、の直線に近似できる。これを組み合わせと、期待値の算出などを使って確かめてみるとすると、どういう風になるか、のメモ。 独立な検定で、帰無仮説が正…