超幾何分布確率の計算とそれを2項分布で近似すること



  • 超幾何分布
    • 母集団の個体数がN
    • 母集団の個体は特性Aの有無で2種類に分けられ、その数はN_AN_{nonA}であるN=N_A+N_{nonA}
    • 特性Aを有する比率 p(A)=¥frac{N_A}{N}
    • 今、標本Nsをサンプリングし、そのうち、Ns_Aが特性を有し、それ以外Nx_{nonA}が有していないとする(Ns=Ns_A+Ns_{nonA}
    • このような標本を得る確率は、超幾何分布になり、次のようになる
      • ¥Large P(N,N_A,Ns,Ns_A)=¥frac{_{N_A}¥mathrm{C}_{Ns_A} ¥times _{N_{nonA}}¥mathrm{C}_{Ns_{nonA}}}{_{N}¥mathrm{C}_{Ns}}
      • ただし、_{N}¥mathrm{C}_{M}=¥frac{N!}{(N-M)!M!}で、全体でN個からM個とN-M個の割り振りで取り出す組み合わせのことである
    • Ns_A ¥leq N_A, Ns_{nonA} ¥leq N_{nonA}であることは言うまでもない
  • 2項分布
    • 今、母集団の個体数は不明(不明なほど大きい、不要)
    • 特性Aを有する比率 p(A)=¥frac{N_A}{N}
    • 標本は同じく、Nsをサンプリングし、そのうち、Ns_Aが特性を有し、それ以外が有していないとする
    • このような標本を得る確率は、母集団個体数が無限大であるとして
      • ¥Large _{Ns}¥mathrm{C}_{Ns_A} ¥times p(A)^{Ns_{A}} ¥times (1-p(A))^{Ns_{nonA}}

とされる。

Nが大きいと、後者の値は前者に近くなり、(前者の計算は面倒くさいので)、後者で近似することが妥当になる。

この近似のよさ(悪さ)を試すエクセルはこちら 



参考サイトはこちら

このサイトにたどりつくにあたって経由したサイトはこちら