複数の独立な検定のP値のプロットが直線になることについてのメモ



N個の独立な検定を行って、そのP値を昇順にソートし、横軸に1からNまでの自然数を、縦軸にP値をとると、y=¥frac{1}{N}¥times xの直線に近似できる。これを組み合わせと、期待値の算出などを使って確かめてみるとすると、どういう風になるか、のメモ。

  • 独立な検定で、帰無仮説が正しいとすると、それを検定したときに得られるP値の値がpとなる確率分布は、0から1に渡って均一で、f(p)=1;0¥le p ¥le 1となる。これは、P値の定義である。
  • このようなとき、P値の期待値は¥int_{0}^{1} p ¥times f(p) dp = 0.5である。
  • 今、N回の検定を行うとしたときに、P値が¥alpha未満になるような試行がQ(¥alpha)回起きたとしよう。このQ(N,¥alpha)の期待値がいくつになるかを考える。
  • ¥alpha未満のP値を持つ検定試行は、0回か、1回か、2回か、…N回のいずれかである。
  • k回の試行のP値が¥alpha未満になる確率をq(N,¥alpha,k)とすると、
    • q(N,¥alpha,k)=¥;_{N}C_{k}¥alpha^{k}¥times (1-¥alpha)^{N-k}と表せる。
    • ¥alpha未満のP値を持つ検定試行の回数の期待値は、Q(N,¥alpha)=¥sum_{k=0}^{N} k ¥times q(N,¥alpha,k)で表される。
      • この計算をするとQ(N,¥alpha)=¥sum_{k=0}^{N} k ¥times q(N,¥alpha,k)=N ¥times ¥alphaであることがわかり、本記事の冒頭の記載が正しいことがわかる。N=100 のときについて、k=0,...,Nの確率から期待値を計算するエクセルファイルはこちら