2006-12-11

不均一な集団からのデータ解釈への拡張

Multiple testing 構造化多項分布

ここは部分積分を用いるともっとずっと簡単でした→こちら

12月5日に、均一分布からのN回サンプリングの最小値の期待値についての記事を、12月7日にその拡張である、N回サンプリングのときの第k番目の値の期待値についての記事を書いた。

今日の記事は、不均一な分布からのN回サンプリングに拡張することを考える。ケースとコントロールとで異なる構造化がある場合などでは、P値の分布は不均一になる。そのような場合を想定している。

０から１の間の値を取る現象があるとする。検定P値を想定している。０から１の間の値が $x, 0 ￥le x ￥le 1$ である確率が $P(x)$ と表されるとする。このような確率密度分布は、その定義から $￥int_{0}^{1}P(x)dx=1$ である。
以降の議論では、すべての確率密度分布とそこから派生するもろもろの分布や関数をの線形関数で近似することを念頭に置き、次のように表すこととする。がそれぞれ確率密度分布となっており、その線形和としてを表したものである。
- 、ただし
  - $￥sum_{k=1}^{K} c_k=1$ , $P(x)￥ge 0$ ; $0 ￥le x ￥le 1$
  - $p_k(x) = k ￥times (1-x)^{k-1}$
の累積密度分布をとすると、
- $q_k(x) = ￥int_{0}^{x} p_k(t)dt=1-(1-x)^k$
- $Q(x) = ￥int_{0}^{x} P(t)dt=1-￥sum_{k=1}^{K} c_k (1-x)^k=1-￥sum_{k=1}^{K}c_k(1-q_k(x))=￥sum_{k=1}^{K}c_k q_k(x)$
今、このような確率密度分布・累積確率密度分布からN回の独立なサンプリングを行うときに、ある値未満の値が１回も出ないような確率は、
- $r_k(m)=1-(1-q_k(m))^N=1-(1-m)^{kN}$
- - ここで、多項定理を用いて式分解すると、
    - $C_{mult}(N;a_1,a_2,...,a_K)=￥frac{N!}{a_1!a_2!...a_K!}$ と書き表すことにすれば
    - $R(m)=1-(￥sum_{k=1}^{K}c_k(1-m)^k)^N$
    - $=1-￥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)￥prod_{k=1}^{K}(c_k(1-m)^k)^{a_k}$
    - $=1-￥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)￥prod_{k=1}^{K}c_k^{a_k}￥prod_{k=1}^{K}(1-m)^{k￥times a_k}$
    - $=1-￥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)￥prod_{k=1}^{K}c_k^{a_k}(1-m)^{￥sum_{k=1}^Kk￥times a_k}$
次に、を微分することにより、N回サンプリングの値のうちの最小値の確率密度分布が得られる。
- $r_k(m)’=kN(1-m)^{kN-1}$
- $R(m)’=￥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)￥prod_{k=1}^{K}c_k^{a_k}￥sum_{k=1}^Kk￥times a_k(1-m)^{￥sum_{k=1}^Kk￥times a_k-1}$
N回サンプリングの最小値の期待値は
- - $=￥int_{0}^{1} kNt(1-t)^{kN-1}dt$
  - $=kN￥int_{0}^{1} -(1-t)^{kN}+(1-t)^{kN-1}dt$
  - $=kN￥[￥frac{(1-t)^{kN+1}}{(kN+1)}-￥frac{(1-t)^{kN-1}}{kN}￥]_0^1$
  - $=kN(-￥frac{1}{kN+1}+￥frac{1}{kN})$
  - $￥frac{1}{kN+1}$
- - $=￥int_{0}^{1}t ￥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)￥prod_{k=1}^{K}c_k^{a_k}￥sum_{k=1}^Kk￥times a_k(1-t)^{￥sum_{k=1}^Kk￥times a_k-1}dt$
  - $=￥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)￥prod_{k=1}^{K}c_k^{a_k}￥sum_{k=1}^Kk￥times a_k ￥int_{0}^{1}t(1-t)^{￥sum_{k=1}^Kk￥times a_k-1}dt$
  - $=￥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)￥prod_{k=1}^{K}c_k^{a_k}￥sum_{k=1}^Kk￥times a_k ￥int_{0}^{1} -(1-t)^{￥sum_{k=1}^Kk￥times a_k}+(1-t)^{￥sum_{k=1}^Kk￥times a_k-1}dt$
  - $=￥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)￥prod_{k=1}^{K}c_k^{a_k}￥sum_{k=1}^Kk￥times a_k ￥[￥frac{(1-t)^{￥sum_{k=1}^Kk￥times a_k+1}}{￥sum_{k=1}^Kk￥times a_k+1} - ￥frac{(1-t)^{￥sum_{k=1}^Kk￥times a_k}}{￥sum_{k=1}^Kk￥times a_k}￥]_0^1$
  - $=￥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)￥prod_{k=1}^{K}c_k^{a_k}￥sum_{k=1}^Kk￥times a_k (0-￥frac{1}{￥sum_{k=1}^Kk￥times a_k+1} -0 + ￥frac{1}{￥sum_{k=1}^Kk￥times a_k})$
  - $=￥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)￥prod_{k=1}^{K}c_k^{a_k}￥sum_{k=1}^Kk￥times a_k ￥frac{-￥sum_{k=1}^Kk￥times a_k + ￥sum_{k=1}^Kk￥times a_k +1}{(￥sum_{k=1}^Kk￥times a_k+1)(￥sum_{k=1}^Kk￥times a_k)}$
  - $=￥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)￥prod_{k=1}^{K}c_k^{a_k}￥sum_{k=1}^Kk￥times a_k ￥frac{1}{(￥sum_{k=1}^Kk￥times a_k+1)(￥sum_{k=1}^Kk￥times a_k)}$
  - $=￥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)￥prod_{k=1}^{K}c_k^{a_k} ￥frac{1}{(￥sum_{k=1}^Kk￥times a_k+1)}$
- この式は、確かに、 $p_k(x)$ が単独のとき、それらの線形和のときにあてはまっている。

ちなみに、はのk次多項式であり、その0次の項の係数が0であるものであるから、とも書ける。上述の表現は積分をしやすいように一ひねりしてあるものであるが、近似式推定などにおいては、の方が扱いやすい。ととの関係がどうなるかを以下に示す。
- と表せるから、のk次の項はを用いて次のように表せる。ただしはkからiを取る組み合わせである。
  - - $=(-1)^{k+1}￥sum_{i=k}^{K}(c_i ￥times _iC_k)$