非心カイ自乗分布

非心カイ自乗分布は、いわゆる「普通のカイ自乗分布」の拡張分布であるので、まずは「普通のカイ自乗分布」についてのおさらい。
「普通のカイ自乗分布」は独立なk個の平均0、分散1の正規分布に従う変数があったときに、その平均からのずれをk次元ユークリッド距離として表したもの。
この分布は、平均がk、分散が2kであることも知られている。こちらを参照。
カイ自乗分布を利用したカイ二乗検定は、帰無仮説を仮定して算出した統計量が「普通のカイ自乗分布」に従うようなときに、この統計量を「普通のカイ自乗分布」に照らして、「帰無仮説が成り立つとしたときに、観測したデータを得る確率」としてp値に換算して評価する。
今、帰無仮説ではなくて、対立仮説を想定しよう。対立仮説が真であるときに得られるデータについてカイ自乗検定を行うと、得られるカイ自乗値の期待値は、帰無仮説が真の場合とはもちろん異なる。帰無仮説が真のときのカイ自乗検定統計量の期待値は上述の通り、kであるのに対して、対立仮説が真のときには、それより大きいということである。対立仮説が与えられると、得られるべきカイ自乗検定統計量の期待値最頻値は計算できる。
今、独立なk個の平均が0とは限らず、分散も1とは限らない、正規分布に従う変数があったときに、各変数の分散で補正した「原点(すべての変数の値が0である点)」からのk次元ユークリッド距離の分布が非心カイ自乗分布である。
「普通のカイ自乗分布」はk個の変数が平均0、分散1の正規分布に従うときの非心カイ自乗分布になっている。
非心カイ自乗分布は、自由度kと、非心性に関するもう一つのパラメタとの2つのパラメタで定まる分布である。非心カイ自乗分布に関するグラフつきの説明はこちらウィキペディアにある。そのウィキペディアで紹介されている、非心カイ自乗分布を描くRのコマンドをちょっと修正して、自由度dについて非心性パラメタ\lambdaを0(帰無仮説)からyまで振ったグラフにしてみた(自由度4の場合)。このような非心カイ自乗分布の平均はk+\lambdaで、分散は2(k+2\lambda)であることが知られている。

d=4
y=20
df=rep(d,y)
byb=1
ncp=seq(from=0,to=y,by=byb)
cols=c(heat.colors(y+1)[1:y+1] )
lw=4
x=seq(0,y*2,length=700)
plot(x,dchisq(x=x,df=df[1],ncp=ncp[1]),type="l",lwd=lw,col=cols[1],xlab="",ylab="",ylim=c(0,0.3),cex.axis=1.5)
for(i in seq(from=2,to=y+1,by=byb)){
lines(x,dchisq(x=x,df=df[i],ncp=ncp[i]),col=cols[i],lwd=lw)
}

以上から、カイ自乗検定を行うことを前提として、帰無仮説が真であるときのカイ自乗分布と、対立仮説が真であるときの分布(非心カイ自乗分布)とがわかった。
今、対立仮説が真であるときにカイ自乗検定をして結果が「有意」となる確率について考える。検定パワーについて考えるということである。
これは、検定の有意水準に相当する「普通のカイ自乗分布」の値以上の値を、対立仮説が与える非心カイ自乗分布がとる確率に相当する。
「普通のカイ自乗分布」は自由度のみをパラメタとする分布であり、「非心カイ自乗分布」は自由度と非心性との2個のパラメタによって定まる分布であるから、カイ自乗検定のパワーは、自由度と対立仮説の非心性と検定の有意水準によって決まることがわかる。
対立仮説を特徴づけるパラメタは独立な変数の数(自由度)ともう一つであるから、非心性パラメタは対立仮説における統計量の期待値と1対1対応する。
したがって、カイ自乗検定のパワーは、自由度と対立仮説における統計量の期待値と有意水準の3つで決まる、とも言いかえられる。