不均一な集団からのデータ解釈への拡張



  • ここは部分積分を用いるともっとずっと簡単でした→こちら

12月5日に、均一分布からのN回サンプリングの最小値の期待値についての記事を、12月7日にその拡張である、N回サンプリングのときの第k番目の値の期待値についての記事を書いた。

今日の記事は、不均一な分布からのN回サンプリングに拡張することを考える。ケースとコントロールとで異なる構造化がある場合などでは、P値の分布は不均一になる。そのような場合を想定している。

  • 0から1の間の値を取る現象があるとする。検定P値を想定している。0から1の間の値がx, 0 ¥le x ¥le 1である確率がP(x)と表されるとする。このような確率密度分布は、その定義から¥int_{0}^{1}P(x)dx=1である。
  • 以降の議論では、すべての確率密度分布とそこから派生するもろもろの分布や関数をxの線形関数で近似することを念頭に置き、次のように表すこととする。p_k(x)がそれぞれ確率密度分布となっており、その線形和としてP(x)を表したものである。
    • P(x) = ¥sum_{k=1}^{K} c_k p_k(x)、ただし
      • ¥sum_{k=1}^{K} c_k=1,P(x)¥ge 0;0 ¥le x ¥le 1
      • p_k(x) = k ¥times (1-x)^{k-1}
  • P(x),p_k(x)の累積密度分布をQ(x),q_k(x)とすると、
    • q_k(x) = ¥int_{0}^{x} p_k(t)dt=1-(1-x)^k
    • Q(x) = ¥int_{0}^{x} P(t)dt=1-¥sum_{k=1}^{K} c_k (1-x)^k=1-¥sum_{k=1}^{K}c_k(1-q_k(x))=¥sum_{k=1}^{K}c_k q_k(x)
  • 今、このような確率密度分布・累積確率密度分布からN回の独立なサンプリングを行うときに、ある値m未満の値が1回も出ないような確率R(m),r_k(m)は、
    • r_k(m)=1-(1-q_k(m))^N=1-(1-m)^{kN}
    • R(m)=1-(1-Q(m))^N=1-(¥sum_{k=1}^{K}c_k(1-m)^k)^N=1-(¥sum_{k=1}^{K}c_k(1-r_k(m))^{¥frac{1}{N}})^N
      • ここで、多項定理を用いて式分解すると、
        • C_{mult}(N;a_1,a_2,...,a_K)=¥frac{N!}{a_1!a_2!...a_K!}と書き表すことにすれば
        • R(m)=1-(¥sum_{k=1}^{K}c_k(1-m)^k)^N
        • =1-¥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)¥prod_{k=1}^{K}(c_k(1-m)^k)^{a_k}
        • =1-¥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)¥prod_{k=1}^{K}c_k^{a_k}¥prod_{k=1}^{K}(1-m)^{k¥times a_k}
        • =1-¥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)¥prod_{k=1}^{K}c_k^{a_k}(1-m)^{¥sum_{k=1}^Kk¥times a_k}
  • 次に、R(m),r_k(m)微分することにより、N回サンプリングの値のうちの最小値の確率密度分布が得られる。
    • r_k(m)’=kN(1-m)^{kN-1}
    • R(m)’=¥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)¥prod_{k=1}^{K}c_k^{a_k}¥sum_{k=1}^Kk¥times a_k(1-m)^{¥sum_{k=1}^Kk¥times a_k-1}
  • N回サンプリングの最小値の期待値exp_k(m),Exp(m)
    • exp_k(m)=¥int_{0}^1 t r_k(t)’dt
      • =¥int_{0}^{1} kNt(1-t)^{kN-1}dt
      • =kN¥int_{0}^{1} -(1-t)^{kN}+(1-t)^{kN-1}dt
      • =kN¥[¥frac{(1-t)^{kN+1}}{(kN+1)}-¥frac{(1-t)^{kN-1}}{kN}¥]_0^1
      • =kN(-¥frac{1}{kN+1}+¥frac{1}{kN})
      • ¥frac{1}{kN+1}
    • Exp(m)=¥int_{0}^{1}t R(t)’dt
      • =¥int_{0}^{1}t ¥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)¥prod_{k=1}^{K}c_k^{a_k}¥sum_{k=1}^Kk¥times a_k(1-t)^{¥sum_{k=1}^Kk¥times a_k-1}dt
      • =¥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)¥prod_{k=1}^{K}c_k^{a_k}¥sum_{k=1}^Kk¥times a_k ¥int_{0}^{1}t(1-t)^{¥sum_{k=1}^Kk¥times a_k-1}dt
      • =¥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)¥prod_{k=1}^{K}c_k^{a_k}¥sum_{k=1}^Kk¥times a_k ¥int_{0}^{1} -(1-t)^{¥sum_{k=1}^Kk¥times a_k}+(1-t)^{¥sum_{k=1}^Kk¥times a_k-1}dt
      • =¥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)¥prod_{k=1}^{K}c_k^{a_k}¥sum_{k=1}^Kk¥times a_k ¥[¥frac{(1-t)^{¥sum_{k=1}^Kk¥times a_k+1}}{¥sum_{k=1}^Kk¥times a_k+1} - ¥frac{(1-t)^{¥sum_{k=1}^Kk¥times a_k}}{¥sum_{k=1}^Kk¥times a_k}¥]_0^1
      • =¥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)¥prod_{k=1}^{K}c_k^{a_k}¥sum_{k=1}^Kk¥times a_k (0-¥frac{1}{¥sum_{k=1}^Kk¥times a_k+1} -0 + ¥frac{1}{¥sum_{k=1}^Kk¥times a_k})
      • =¥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)¥prod_{k=1}^{K}c_k^{a_k}¥sum_{k=1}^Kk¥times a_k ¥frac{-¥sum_{k=1}^Kk¥times a_k + ¥sum_{k=1}^Kk¥times a_k +1}{(¥sum_{k=1}^Kk¥times a_k+1)(¥sum_{k=1}^Kk¥times a_k)}
      • =¥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)¥prod_{k=1}^{K}c_k^{a_k}¥sum_{k=1}^Kk¥times a_k ¥frac{1}{(¥sum_{k=1}^Kk¥times a_k+1)(¥sum_{k=1}^Kk¥times a_k)}
      • =¥sum_{a_1,a_2,...,a_K}C_{mult}(N;a_1_a_2,...,a_K)¥prod_{k=1}^{K}c_k^{a_k} ¥frac{1}{(¥sum_{k=1}^Kk¥times a_k+1)}
    • この式は、確かに、p_k(x)が単独のとき、それらの線形和のときにあてはまっている。
  • ちなみに、Q(x)=1-¥sum_{k=1}^{K}c_k (1-x)^kxのk次多項式であり、その0次の項の係数が0であるものであるから、Q(x)=1-¥sum_{k=1}^{K}c_k (1-x)^k=¥sum_{k=1}^{K}d_k x^kとも書ける。上述の表現は積分をしやすいように一ひねりしてあるものであるが、近似式推定などにおいては、Q(x)=¥sum_{k=1}^{K}d_k x^kの方が扱いやすい。c_kd_kとの関係がどうなるかを以下に示す。
    • (1-x)^n = ¥sum_{i=1}^{n}(_nC_i (-1)^ix^i)と表せるから、Q(x)のk次の項はc_iを用いて次のように表せる。ただし_kC_iはkからiを取る組み合わせである。
      • d_k=-¥sum_{i=k}^K c_i (_iC_k (-1)^k)
        • =(-1)^{k+1}¥sum_{i=k}^{K}(c_i ¥times _iC_k)