不均一な集団からのデータ解釈への拡張
12月5日に、均一分布からのN回サンプリングの最小値の期待値についての記事を、12月7日にその拡張である、N回サンプリングのときの第k番目の値の期待値についての記事を書いた。
今日の記事は、不均一な分布からのN回サンプリングに拡張することを考える。ケースとコントロールとで異なる構造化がある場合などでは、P値の分布は不均一になる。そのような場合を想定している。
- 0から1の間の値を取る現象があるとする。検定P値を想定している。0から1の間の値がである確率がと表されるとする。このような確率密度分布は、その定義からである。
- 以降の議論では、すべての確率密度分布とそこから派生するもろもろの分布や関数をの線形関数で近似することを念頭に置き、次のように表すこととする。がそれぞれ確率密度分布となっており、その線形和としてを表したものである。
- 、ただし
- ,;
- 、ただし
- の累積密度分布をとすると、
- 今、このような確率密度分布・累積確率密度分布からN回の独立なサンプリングを行うときに、ある値未満の値が1回も出ないような確率は、
- ここで、多項定理を用いて式分解すると、
- と書き表すことにすれば
- ここで、多項定理を用いて式分解すると、
- 次に、を微分することにより、N回サンプリングの値のうちの最小値の確率密度分布が得られる。
- N回サンプリングの最小値の期待値は
- この式は、確かに、が単独のとき、それらの線形和のときにあてはまっている。
- ちなみに、はのk次多項式であり、その0次の項の係数が0であるものであるから、とも書ける。上述の表現は積分をしやすいように一ひねりしてあるものであるが、近似式推定などにおいては、の方が扱いやすい。ととの関係がどうなるかを以下に示す。
- と表せるから、のk次の項はを用いて次のように表せる。ただしはkからiを取る組み合わせである。
- と表せるから、のk次の項はを用いて次のように表せる。ただしはkからiを取る組み合わせである。