カイ自乗検定と正確検定について



HWEの正確検定についてこんな記事(こちら)を書いた。そこでは、N人についての観測を、Nx2分割表として正確確率を計算することを述べた。

このNx2分割表についてのカイ自乗統計量がどのようにHWE検定のカイ自乗統計量と関係しているかを考える。

アレル1アレル2合算
202
202
202
202
.........
112
112
.........
022
.........
022
NpN(1-p)2N

今、ホモがa人、ヘテロがb人、逆ホモがc人だとする。

アレル1のセルの期待値は2p、アレル2のセルの期待値は2(1-p)なので、このNx2分割表のカイ自乗値は¥chi^2=a(¥frac{(2-2p)^2}{2p}+¥frac{(0-2(1-p))^2}{2(1-p)}+b(¥frac{(1-2p)^2}{2p}+¥frac{(1-2(1-p))^2}{2(1-p)})+c(¥frac{(0-2p)^2}{2p}+¥frac{(2-2(1-p))^2}{2(1-p)})

これを整理すると

¥chi^2=frac{1}{2p(1-p)}(a(2-2p)^2+b(1-2p)^2+c(0-2p)^2)

である。

この統計量は、Nx2個のセルがすべて均一だったときに0となるような統計量である。この統計量はヘテロ人数について算出すると、もっともヘテロ人数を多くした場合に、もっとも小さい値をとる。

であるから、この統計量がそのままHWEからの逸脱の程度を表すものとしては使えない。

実際にHWEについて検討するにあたっては、HWE状態にあるようなa',b',c'からの逸脱の程度を計量することになる。であるから、a’=p^2N,b’=2p(1-p)N,c’=(1-p)^2Nとしてやったときの、上記統計量を¥chi^2_{HWE}とすると、(¥chi^2-¥chi^2_{HWE})^2は、HWEからの逸脱の程度を表している。

今、さらに¥frac{(¥chi^2-¥chi_{HWE}^2)^2}{¥chi_{HWE}^2}としてやると、これが、実は、a,b,cとに対して、期待値をa',b',c'としたときのカイ自乗統計量に一致する。当然のような、不思議なような感じである。

もちろん、Nx2表において、自由度はN-1であったが、比較した相手とは変数が1個分しか違わないので、この統計量は自由度1で検定する。

この検討につかったエクセルはこちら