均一確率分布からの最小P値の分布



2006年12月5日の記事に、この件を書いた。そのときは、FWERの考え方と微分の考え方から、

Exp(min) = ¥int_{0}^{1} (¥alpha ¥times N ¥times (1-¥alpha)^{N-1}) d¥alpha

なる式を示した。

この式の由来を幾何学的に考える。

均一確率分布からの独立なN回のサンプリングは、辺の長さが1のN次元立方体からのサンプリングであると考える。1回のサンプリングにより、N個の次元に相当するN個の値が得られる、その中で、最小の値が何か、それをN次元立方体全体について検討して期待値を出すにはどうするか、という問題であることがわかる。

今、N次元立方体において、最小値が¥alphaとなるような部分は、どのような部分だろうか。

N=2の場合を考える。このときは、x1=¥alpha または  x2=¥alphaを満足するような、長さ1-¥alphaからなる、L字型部分(2直線で構成された部分:2つの、1次元成分)である。N=3の場合を考える。この場合はx1=¥alphaまたはx2=¥alphaまたはx3=¥alphaを満足するような、3平面で構成された部分(3つの、2次元成分、それぞれ、(1-¥alpha)^2)である。次元を拡張してN次元のそれは、N個のN-1次元成分((1-¥alpha)^{N-1})からなる。

したがって、¥int_{0}^{1} (¥alpha ¥times N ¥times (1-¥alpha)^{N-1}) d¥alphaにて、その期待値が算出されることがわかる。この値が¥frac{1}{N+1}であることは、2006年12月5日の記事に示したとおりである。

P値を昇順ソートしたときのその期待値について



12月5日の記事(こちら)に、N回の独立検定を行ったときに得られる最小P値の期待値が¥frac{1}{N+1}となることを示した。今日の記事では、同様に行ったときに得られる、第k番目に小さいP値の期待値が¥frac{k}{N+1}となることを示す。

  • 均一な確率密度分布はU(x)=1;0¥le x ¥le 1で与えられる。
  • N回の独立サンプリングをしたときに¥alpha以下の値がk回以上起きる確率は、P(k,¥alpha)=1-¥sum_{i=0}^{k-1}_NC_i ¥alpha^{i}(1-¥alpha)^{N-i}にて与えられる。これに関する記事は(記事はこちら)
  • 今、N試行中、¥alphaが第k番目であるということは、¥alpha以下の試行がk回以上であって、¥alpha-¥Delta ¥alpha以下の試行がk-1回であると言い換えられる。そのような確率Pr(k_{th}=¥alpha)
    • P(k,¥alpha)-P(k,¥alpha-¥Delta ¥alpha)と表され、その極限をとればよい
  • したがって
    • Pr(k_{th}=¥alpha)=P(k,¥alpha)’
    • =¥sum_{i=0}^{k-1}_NC_i (-i¥times ¥alpha^{i-1}(1-¥alpha)^{N-i}+(N-i)¥times ¥alpha^{i}(1-¥alpha)^{N-i-1})がその確率である。ただし、i=0,Nの場合は異なる式で表されるが、より簡単に以下のことが示されるので、省略する。
  • N回独立試行の最小値の期待値は、
    • Exp(k_{th}) = ¥int_{0}^{1} ¥alpha ¥times Pr(k_{th}=¥alpha) d¥alphaで表される。式変形すると
    • ¥int_{0}^{1} (¥sum_{i=0}^{k-1} _NC_i ¥alpha ¥times (-i¥times ¥alpha^{i-1}(1-¥alpha)^{N-i}+(N-i)¥times ¥alpha^{i}(1-¥alpha)^{N-i-1})) d¥alpha
      • ¥int_{0}^{1} ( _NC_i ¥alpha ¥times (-i¥times ¥alpha^{i-1}(1-¥alpha)^{N-i}+(N-i)¥times ¥alpha^{i}(1-¥alpha)^{N-i-1})) d¥alphaの各項がいずれも¥frac{1}{N+1}となることを以下に示す。
        • ベータ関数B(x,y)=¥int_{0}^{1} t^{x-1}(1-t)^{y-1}dt,(x ¥gt 0,y ¥gt 0)は、自然数x,yについて、B(x,y)=¥frac{(x-1)!(y-1)!}{(x+y-1)!}なる性質があるから
        • ¥int_{0}^{1} ( _NC_i ¥alpha ¥times (-i¥times ¥alpha^{i-1}(1-¥alpha)^{N-i}+(N-i)¥times ¥alpha^{i}(1-¥alpha)^{N-i-1})) d¥alpha
        • =¥frac{N!}{i!(N-i)!}(-i¥times ¥frac{(i+1-1)!(N-i+1-1)!}{(i+1+N-i+1-1)!} + (N-i)¥times ¥frac{(i+2-1)!(N-i-1)!}{(i+2+N-i-1)!})
        • =¥frac{N!}{i!(N-i)!}(-i¥times ¥frac{i!(N-i)!}{(N+1)!} + (N-i)¥times ¥frac{(i+1)!(N-i-1)!}{(N+1)!})
        • =¥frac{N!}{i!(N-i)!}¥frac{i!(N-i-1)!}{(N+1)!}(-i(N-i)+(N-i)(i+1))
        • =¥frac{N!}{i!(N-i)!}¥frac{i!(N-i-1)!}{(N+1)!}¥times (N-i)
        • =¥frac{(N-i)}{(N-i)(N+1)}
        • =¥frac{1}{N+1}

最小P値の分布



  • 均一な確率密度分布はU(x)=1;0¥le x ¥le 1で与えられる。
  • N回の独立サンプリングをしたときに¥alpha以下の値が1回以上起きる確率は、FWERの考え方から示される通り、P(¥alpha)=1-(1-¥alpha)^N (記事はこちら)
  • 今、N試行中、¥alphaが最小値であるということは、¥alpha以下の試行が1回以上であって、¥alpha-¥Delta ¥alpha以下の試行が0回であると言い換えられる。そのような確率は
    • P(¥alpha)-P(¥alpha-¥Delta ¥alpha)と表され、その極限をとればよい
  • したがって
    • Pr(min=¥alpha)=P(¥alpha)’ = N ¥times (1-¥alpha)^{N-1}がその確率である。
      • この確率密度分布はPr(min=0)=P(0)’=N,Pr(min=1)=P(1)’=0の単調減少関数であり、そのことからわかるように、最頻値は0である。
      • また、この確率密度分布の0から1までの積分は、確かに1となっている。¥int_{0}^{1}Pr(min=¥alpha)d¥alpha=¥[-(1-¥alpha)^{N}¥]_{0}^{1}=1
  • N回独立試行の最小値の期待値は、
    • Exp(min) = ¥int_{0}^{1} ¥alpha ¥times Pr(min=¥alpha) d¥alphaで表される。式変形すると
      • Exp(min) = ¥int_{0}^{1} (¥alpha ¥times N ¥times (1-¥alpha)^{N-1}) d¥alpha
      •  = N ¥times (¥int_{0}^{1} (1-¥alpha)^{N-1} d¥alpha - ¥int_{0}^{1} (1-¥alpha)^{N} d¥alpha )
      •  = N ¥times( -¥[¥frac{1}{N} (1-¥alpha)^{N}¥]_0^1 + ¥[¥frac{1}{N+1} (1-¥alpha)^{N+1}¥]_0^1)
      •  N ¥times (¥frac{1}{N} - ¥frac{1}{N+1})
      •  ¥frac{1}{N+1}
  • 均一分布からのN回の独立試行の最小値の期待値が、¥frac{1}{N+1}になることを確認しているエクセルはこちら1 ¥le N ¥le 1000で、最小値の期待値を100回分の平均として計算している。

Combining functions同士の相関



パーミュテーションテストに用いるcombining functionsについてはこちらの記事に記載した。

連鎖不平衡マッピングのデータに次の3関数を適用したとき、それぞれの試行で得られる、combining fucntion値の相関をコプロットしてみた。FisherとLiptakLogitとは、かなりよい。Tippetteはかなり悪い。Tippetteは試行において生じる最強関連多型のP値が、combining functionの値を決定するのに対して、他2関数の方は、多数の多型の偏り具合を加算しているから。

狭い領域に関連のオリジンがあり、関連を示す多型はすべてそれとLD関係にある場合などは、Tippetteが適する(Tippetteはそもそも、1個でも関連のある因子があるか、すべての因子が関連なしかを識別するのに適している)。他方、Fisher, Liptak(LiptakLogit)は多くの(下手をすると、すべての)因子が関連を有しているかもしれないときの棄却域設定をしている(Liptakがその性質を強く持つ)ので、ホールゲノムなどは、こちらが適当か・・・。もちろん、スタディデザインによるが。掲載図のオリジナルはこちら

Combining functions



パーミュテーションテストに用いるcombining functionsについてはこちらの記事に記載した。2変数に絞って、視覚的理解を助けるための資料(エクセル、図)を載せる。エクセルはこちら。掲載図のオリジナルはこちら

Fisher,LiptakLogit,Tippetteの3関数の相関のよさ・悪さについてのメモはこちら

第11章 繰り返し観測の取り扱い



  • 観測データは、系列になっていて、ある値はその系列の前の値(もしくは後の値、前後両方など)の影響を受けた値であるとする。このようなとき、個々の測定系列の増減に着目しないと違いがあるのにみつからないこととなる。たとえば、身長の経時変化など。系列内データの差分をデータとして扱っている例が示されている
  • さらに、それと似ているけれども、本章で扱っている、繰り返し観測(非減少系列など)でもとらえられないのは、系列の中にピークがあることの検出や、そのピークの位置が、群間で異なることなどの検定も繰り返し