悪いサンプル

今、m個のサンプルについて、ほぼ一様な試行をn回繰り返し、各サンプルについて、何回失敗したかを数えるとする。
試行の成否は、確率pで失敗するとする。
r回失敗する確率は、_n C_r p^r (1-p)^{n-r}
失敗確率が高いときは、Nが大きくなるに従って、正規分布に近似、失敗確率が低いときはポアッソン分布に近似する。
正規分布N(np,np(1-p))
今、一番失敗回数の多かったサンプルがr回の失敗だったとする。
r回以上失敗する確率は、正規分布の累積密度関数で求められる。その確率をPr(\ge r)とする。
それと同程度珍しいことは、r'回以下しか失敗しない確率で、それは、Pr(\le r')とする。
m個のサンプルのすべてがr'からrの間に収まる確率は、1-(Pr(\ge r)+Pr(\le r')=1-2Pr(\ge r)のm乗である。
従って、上記の条件で、失敗回数の多かったサンプルが、サンプル特異的に失敗が多くなっているのかどうかは、この値をP値として、棄却検討ができる。