自由度2の正確確率を2段階で計算



自由度2の分割表は2x3テーブル。

XXXxxx合算
ケースabcg
コントロールdefh
合計ijkn

このテーブルの観測確率はPr(a,b,c,d,e,f)=¥frac{g!h!i!j!k!}{a!b!c!d!e!f!n!}

今、この周辺度数において、a=a_xである場合を考える。

XXOthers合算
ケースa_xb_x+c_xg
コントロールd_xe_x+f_xh
合計ij+kn

b_x+c_x=g-a_x,d=d_x=i-a_x,e_x+f_x=h-d_xであるから、その確率は、Pr(a=a_x)=¥frac{g!h!i!(j+k)!}{a_x!(b_x+c_x)!d_x!(e_x+f_x)!n!}

Pr(a=a_x)=¥frac{g!h!i!(j+k)!}{a_x!(g-a_x)!(d_x)!(h-d_x)!n!}

さらに、a=a_xのときに、b_x=b_{x,y}である確率を考えよう。

XXXxxx合算
ケースa_xb_{x,y}c_{x,y}g
コントロールd=d_xe_{x,y}f_{x,y}h
合計ijkn

というテーブルは

Xxxx合算
ケースb_{x,y}c_{x,y}g-a_x
コントロールe_{x,y}f_{x,y}h-d_x
合計jkj+k

その確率はPr(b=b_{x,y}|a=a_x)=¥frac{(g-a_x)!(h-d_x)!j!k!}{b_{x,y}!c_{x,y}!e_{x,y}f_{x,y}!}

今、Pr(a_x,b_{x,y},c_{x,y},d_x,e_{x,y},f_{x,y})=Pr(a=a_x)¥times Pr(b=b_{x,y}|a=a_x)であることが上掲の式から確かめられる。

確率の定義から、次のことも言える。

¥sum_{all x} Pr(a=a_x) =1

¥sum_{all y} Pr(b=b_{x,y}|a=a_x) =1

また、

Pr(a_0,b_0,c_0,d_0,e_0,f_0)>Pr(a=a_x)であるとき、Pr(a_x,b_{x,y},c_{x,y},d_x,e_{x,y},f_{x,y})がすべてのyについて成り立つ。このことを利用して、正確確率検定P値の計算回数は、N^2オーダーからNオーダー超へと減少する

この作業用のエクセルはこちら