2007-07-02

均一確率分布からの最小P値の分布

2006年12月5日の記事に、この件を書いた。そのときは、FWERの考え方と微分の考え方から、

$Exp(min) = ￥int_{0}^{1} (￥alpha ￥times N ￥times (1-￥alpha)^{N-1}) d￥alpha$

なる式を示した。

この式の由来を幾何学的に考える。

均一確率分布からの独立なN回のサンプリングは、辺の長さが１のN次元立方体からのサンプリングであると考える。１回のサンプリングにより、N個の次元に相当するN個の値が得られる、その中で、最小の値が何か、それをN次元立方体全体について検討して期待値を出すにはどうするか、という問題であることがわかる。

今、N次元立方体において、最小値が $￥alpha$ となるような部分は、どのような部分だろうか。

N=2の場合を考える。このときは、 $x1=￥alpha$ 　または $x2=￥alpha$ を満足するような、長さ $1-￥alpha$ からなる、L字型部分(２直線で構成された部分：2つの、1次元成分)である。N=3の場合を考える。この場合は $x1=￥alpha$ または $x2=￥alpha$ または $x3=￥alpha$ を満足するような、３平面で構成された部分(3つの、2次元成分、それぞれ、 $(1-￥alpha)^2$ )である。次元を拡張してN次元のそれは、N個のN-1次元成分( $(1-￥alpha)^{N-1}$ ）からなる。

したがって、 $￥int_{0}^{1} (￥alpha ￥times N ￥times (1-￥alpha)^{N-1}) d￥alpha$ にて、その期待値が算出されることがわかる。この値が $￥frac{1}{N+1}$ であることは、2006年12月5日の記事に示したとおりである。

2006-12-07

P値を昇順ソートしたときのその期待値について

Multiple testing パーミュテーションテスト

12月5日の記事(こちら)に、N回の独立検定を行ったときに得られる最小P値の期待値が $￥frac{1}{N+1}$ となることを示した。今日の記事では、同様に行ったときに得られる、第k番目に小さいP値の期待値が $￥frac{k}{N+1}$ となることを示す。

均一な確率密度分布は $U(x)=1;0￥le x ￥le 1$ で与えられる。
N回の独立サンプリングをしたときに $￥alpha$ 以下の値がk回以上起きる確率は、 $P(k,￥alpha)=1-￥sum_{i=0}^{k-1}_NC_i ￥alpha^{i}(1-￥alpha)^{N-i}$ にて与えられる。これに関する記事は(記事はこちら)
今、N試行中、が第k番目であるということは、以下の試行がk回以上であって、以下の試行がk-1回であると言い換えられる。そのような確率は
- $P(k,￥alpha)-P(k,￥alpha-￥Delta ￥alpha)$ と表され、その極限をとればよい
したがって
- $Pr(k_{th}=￥alpha)=P(k,￥alpha)’$
- $=￥sum_{i=0}^{k-1}$ $_NC_i (-i￥times ￥alpha^{i-1}(1-￥alpha)^{N-i}+(N-i)￥times ￥alpha^{i}(1-￥alpha)^{N-i-1})$ がその確率である。ただし、 $i=0,N$ の場合は異なる式で表されるが、より簡単に以下のことが示されるので、省略する。
N回独立試行の最小値の期待値は、
- $Exp(k_{th}) = ￥int_{0}^{1} ￥alpha ￥times Pr(k_{th}=￥alpha) d￥alpha$ で表される。式変形すると
- - の各項がいずれもとなることを以下に示す。
    - ベータ関数 $B(x,y)=￥int_{0}^{1} t^{x-1}(1-t)^{y-1}dt$ , $(x ￥gt 0,y ￥gt 0)$ は、自然数 $x,y$ について、 $B(x,y)=￥frac{(x-1)!(y-1)!}{(x+y-1)!}$ なる性質があるから
    - $￥int_{0}^{1} ( _NC_i ￥alpha ￥times (-i￥times ￥alpha^{i-1}(1-￥alpha)^{N-i}+(N-i)￥times ￥alpha^{i}(1-￥alpha)^{N-i-1})) d￥alpha$
    - $=￥frac{N!}{i!(N-i)!}(-i￥times ￥frac{(i+1-1)!(N-i+1-1)!}{(i+1+N-i+1-1)!} + (N-i)￥times ￥frac{(i+2-1)!(N-i-1)!}{(i+2+N-i-1)!})$
    - $=￥frac{N!}{i!(N-i)!}(-i￥times ￥frac{i!(N-i)!}{(N+1)!} + (N-i)￥times ￥frac{(i+1)!(N-i-1)!}{(N+1)!})$
    - $=￥frac{N!}{i!(N-i)!}￥frac{i!(N-i-1)!}{(N+1)!}(-i(N-i)+(N-i)(i+1))$
    - $=￥frac{N!}{i!(N-i)!}￥frac{i!(N-i-1)!}{(N+1)!}￥times (N-i)$
    - $=￥frac{(N-i)}{(N-i)(N+1)}$
    - $=￥frac{1}{N+1}$

メモ代わりのエクセル

2006-12-05

最小P値の分布

Multiple testing パーミュテーションテスト

均一な確率密度分布は $U(x)=1;0￥le x ￥le 1$ で与えられる。
N回の独立サンプリングをしたときに $￥alpha$ 以下の値が1回以上起きる確率は、FWERの考え方から示される通り、 $P(￥alpha)=1-(1-￥alpha)^N$ 　(記事はこちら)
今、N試行中、が最小値であるということは、以下の試行が１回以上であって、以下の試行が０回であると言い換えられる。そのような確率は
- $P(￥alpha)-P(￥alpha-￥Delta ￥alpha)$ と表され、その極限をとればよい
したがって
- がその確率である。
  - この確率密度分布は $Pr(min=0)=P(0)’=N$ , $Pr(min=1)=P(1)’=0$ の単調減少関数であり、そのことからわかるように、最頻値は０である。
  - また、この確率密度分布の０から１までの積分は、確かに１となっている。 $￥int_{0}^{1}Pr(min=￥alpha)d￥alpha=￥[-(1-￥alpha)^{N}￥]_{0}^{1}=1$
N回独立試行の最小値の期待値は、
- で表される。式変形すると
  - $Exp(min) = ￥int_{0}^{1} (￥alpha ￥times N ￥times (1-￥alpha)^{N-1}) d￥alpha$
  - $= N ￥times (￥int_{0}^{1} (1-￥alpha)^{N-1} d￥alpha - ￥int_{0}^{1} (1-￥alpha)^{N} d￥alpha )$
  - $= N ￥times( -￥[￥frac{1}{N} (1-￥alpha)^{N}￥]_0^1 + ￥[￥frac{1}{N+1} (1-￥alpha)^{N+1}￥]_0^1)$
  - $N ￥times (￥frac{1}{N} - ￥frac{1}{N+1})$
  - $￥frac{1}{N+1}$
均一分布からのN回の独立試行の最小値の期待値が、 $￥frac{1}{N+1}$ になることを確認しているエクセルはこちら。 $1 ￥le N ￥le 1000$ で、最小値の期待値を１００回分の平均として計算している。

2006-09-27

Combining functions同士の相関

パーミュテーションテスト

パーミュテーションテストに用いるcombining functionsについてはこちらの記事に記載した。

連鎖不平衡マッピングのデータに次の３関数を適用したとき、それぞれの試行で得られる、combining fucntion値の相関をコプロットしてみた。FisherとLiptakLogitとは、かなりよい。Tippetteはかなり悪い。Tippetteは試行において生じる最強関連多型のP値が、combining functionの値を決定するのに対して、他２関数の方は、多数の多型の偏り具合を加算しているから。

狭い領域に関連のオリジンがあり、関連を示す多型はすべてそれとLD関係にある場合などは、Tippetteが適する(Tippetteはそもそも、１個でも関連のある因子があるか、すべての因子が関連なしかを識別するのに適している)。他方、Fisher, Liptak(LiptakLogit)は多くの(下手をすると、すべての)因子が関連を有しているかもしれないときの棄却域設定をしている(Liptakがその性質を強く持つ)ので、ホールゲノムなどは、こちらが適当か・・・。もちろん、スタディデザインによるが。掲載図のオリジナルはこちら

2006-09-26

Combining functions

パーミュテーションテスト

パーミュテーションテストに用いるcombining functionsについてはこちらの記事に記載した。２変数に絞って、視覚的理解を助けるための資料(エクセル、図)を載せる。エクセルはこちら。掲載図のオリジナルはこちら

Fisher,LiptakLogit,Tippetteの３関数の相関のよさ・悪さについてのメモはこちら

2006-08-11

第12章　アプリケーション

駆け足で読むシリーズパーミュテーションテスト多変量解析教科書 Java

著者のホームページ(こちら)

2006-08-11

第11章　繰り返し観測の取り扱い

駆け足で読むシリーズパーミュテーションテスト多変量解析教科書 Java

観測データは、系列になっていて、ある値はその系列の前の値(もしくは後の値、前後両方など)の影響を受けた値であるとする。このようなとき、個々の測定系列の増減に着目しないと違いがあるのにみつからないこととなる。たとえば、身長の経時変化など。系列内データの差分をデータとして扱っている例が示されている
さらに、それと似ているけれども、本章で扱っている、繰り返し観測(非減少系列など)でもとらえられないのは、系列の中にピークがあることの検出や、そのピークの位置が、群間で異なることなどの検定も繰り返し