不均一な集団からのデータ解釈への拡張
12月5日に、均一分布からのN回サンプリングの最小値の期待値についての記事を、12月7日にその拡張である、N回サンプリングのときの第k番目の値の期待値についての記事を書いた。
今日の記事は、不均一な分布からのN回サンプリングに拡張することを考える。ケースとコントロールとで異なる構造化がある場合などでは、P値の分布は不均一になる。そのような場合を想定している。
- 0から1の間の値を取る現象があるとする。検定P値を想定している。0から1の間の値が
である確率が
と表されるとする。このような確率密度分布は、その定義から
である。
- 以降の議論では、すべての確率密度分布とそこから派生するもろもろの分布や関数を
の線形関数で近似することを念頭に置き、次のように表すこととする。
がそれぞれ確率密度分布となっており、その線形和として
を表したものである。
、ただし
,
;
の累積密度分布を
とすると、
- 今、このような確率密度分布・累積確率密度分布からN回の独立なサンプリングを行うときに、ある値
未満の値が1回も出ないような確率
は、
- ここで、多項定理を用いて式分解すると、
と書き表すことにすれば
- ここで、多項定理を用いて式分解すると、
- 次に、
を微分することにより、N回サンプリングの値のうちの最小値の確率密度分布が得られる。
- N回サンプリングの最小値の期待値
は
- この式は、確かに、
が単独のとき、それらの線形和のときにあてはまっている。
- ちなみに、
は
のk次多項式であり、その0次の項の係数が0であるものであるから、
とも書ける。上述の表現は積分をしやすいように一ひねりしてあるものであるが、近似式推定などにおいては、
の方が扱いやすい。
と
との関係がどうなるかを以下に示す。
と表せるから、
のk次の項は
を用いて次のように表せる。ただし
はkからiを取る組み合わせである。