超幾何分布



    • 今、2種類のものがあり、併せてN個である。M個と(N-M)個に分かれているとする。今、Nの値もMの値も不明だとする。このN個から、n個を取り出してやったら、2種類はn1個とn2個であることがわかるだろう。これを繰り返すことによって、¥frac{n1}{n1+n2}の値の推定が可能で、実は、この推定値が¥frac{M}{N}となっている。n1=xになる確率がP_r(x=k)=¥frac{_M¥mathrm{C}_k _{N-M}_¥mathrm{C}_{n-k}}{_N¥mathrm{C}_n}で、これをx=0¥cdots Nについて足し合わせると総和が1になるような確率分布であることが式変形などで示すことができ、このような確率分布を超幾何分布と言う。この超幾何分布の期待値は確率分布の式変形から求めたものと一致する。この超幾何分布が仮定しているサンプリングは、有限個(N)からn個を取り出す(取り出した後には、N-n個残る)ようなサンプリングである。このようなサンプリングは、2項分布のときのサンプリングと異なることに留意する。2項分布においては、n回の試行のそれぞれである事象の起きる確率を一様にPとしたが、こちらのサンプリングでは、取り出すたびにある事象の起きる確率は変化している(その確率の変化自体は式に登場しないが)。2項分布的なサンプリングと超幾何分布的なサンプリングである事象が観測される期待値は同じであるが、両者の違いは分散の違いとなって反映されている。ちなみに2項分布の場合の分散はV(x)=nP(1-P)であるのに対し、超幾何分布のそれはV(x)=¥frac{N-n}{N-1}nP(1-P)となる