P値を昇順ソートしたときのその期待値について



12月5日の記事(こちら)に、N回の独立検定を行ったときに得られる最小P値の期待値が¥frac{1}{N+1}となることを示した。今日の記事では、同様に行ったときに得られる、第k番目に小さいP値の期待値が¥frac{k}{N+1}となることを示す。

  • 均一な確率密度分布はU(x)=1;0¥le x ¥le 1で与えられる。
  • N回の独立サンプリングをしたときに¥alpha以下の値がk回以上起きる確率は、P(k,¥alpha)=1-¥sum_{i=0}^{k-1}_NC_i ¥alpha^{i}(1-¥alpha)^{N-i}にて与えられる。これに関する記事は(記事はこちら)
  • 今、N試行中、¥alphaが第k番目であるということは、¥alpha以下の試行がk回以上であって、¥alpha-¥Delta ¥alpha以下の試行がk-1回であると言い換えられる。そのような確率Pr(k_{th}=¥alpha)
    • P(k,¥alpha)-P(k,¥alpha-¥Delta ¥alpha)と表され、その極限をとればよい
  • したがって
    • Pr(k_{th}=¥alpha)=P(k,¥alpha)’
    • =¥sum_{i=0}^{k-1}_NC_i (-i¥times ¥alpha^{i-1}(1-¥alpha)^{N-i}+(N-i)¥times ¥alpha^{i}(1-¥alpha)^{N-i-1})がその確率である。ただし、i=0,Nの場合は異なる式で表されるが、より簡単に以下のことが示されるので、省略する。
  • N回独立試行の最小値の期待値は、
    • Exp(k_{th}) = ¥int_{0}^{1} ¥alpha ¥times Pr(k_{th}=¥alpha) d¥alphaで表される。式変形すると
    • ¥int_{0}^{1} (¥sum_{i=0}^{k-1} _NC_i ¥alpha ¥times (-i¥times ¥alpha^{i-1}(1-¥alpha)^{N-i}+(N-i)¥times ¥alpha^{i}(1-¥alpha)^{N-i-1})) d¥alpha
      • ¥int_{0}^{1} ( _NC_i ¥alpha ¥times (-i¥times ¥alpha^{i-1}(1-¥alpha)^{N-i}+(N-i)¥times ¥alpha^{i}(1-¥alpha)^{N-i-1})) d¥alphaの各項がいずれも¥frac{1}{N+1}となることを以下に示す。
        • ベータ関数B(x,y)=¥int_{0}^{1} t^{x-1}(1-t)^{y-1}dt,(x ¥gt 0,y ¥gt 0)は、自然数x,yについて、B(x,y)=¥frac{(x-1)!(y-1)!}{(x+y-1)!}なる性質があるから
        • ¥int_{0}^{1} ( _NC_i ¥alpha ¥times (-i¥times ¥alpha^{i-1}(1-¥alpha)^{N-i}+(N-i)¥times ¥alpha^{i}(1-¥alpha)^{N-i-1})) d¥alpha
        • =¥frac{N!}{i!(N-i)!}(-i¥times ¥frac{(i+1-1)!(N-i+1-1)!}{(i+1+N-i+1-1)!} + (N-i)¥times ¥frac{(i+2-1)!(N-i-1)!}{(i+2+N-i-1)!})
        • =¥frac{N!}{i!(N-i)!}(-i¥times ¥frac{i!(N-i)!}{(N+1)!} + (N-i)¥times ¥frac{(i+1)!(N-i-1)!}{(N+1)!})
        • =¥frac{N!}{i!(N-i)!}¥frac{i!(N-i-1)!}{(N+1)!}(-i(N-i)+(N-i)(i+1))
        • =¥frac{N!}{i!(N-i)!}¥frac{i!(N-i-1)!}{(N+1)!}¥times (N-i)
        • =¥frac{(N-i)}{(N-i)(N+1)}
        • =¥frac{1}{N+1}