- 2x2表があるとき、その生起確率は。周辺度数が固定しているときに比例している
- 2つの1次元確率密度分布があるとする。2つの分布に従って生起する事象のペアがあるとする。ペアになる事象が独立であるかそうでないかを考える。独立でない場合には、「偏った」2次元確率密度分布が存在することになる。これは、2次元の分割表の2つの軸の分割を極限まで細かくして状況に相当する
- では、この2次元空間をk分割してそれぞれのセルのことを考慮すれば、周辺度数(2つの分布が相当)を固定して考えたときの、2事象の生起分布の正確生起確率はに比例する(ただしNは総標本数)
- ここでスターリングの近似を使うと、であるので
- 対数を取って
- だから
- ここで第2項は情報量みたいなものだから、分割表の生起確率っていうのは、周辺度数を固定したときの観察分割表の起きやすさであるし、2次元分布の場合は、2つの周辺確率密度分布を固定したときの観察2次元密度分布の起きやすさのようなものであって、それは「情報の量」
- さらに言えば、独立性を尤度比検定したときの尤度比のようなものでもある
m <- matrix(c(3,4,5,6),2,2)
chisq.test(m,correct=FALSE)
N <- sum(m)
sum(m/N*log(m/N))
n.iter <- 1000
n <- 1000
r <- c(400,600)
c <- c(200,800)
ps <- chisqs <- chisqs2 <- infs <- fps <- x11s <- rep(0,n.iter)
tmp.e <- outer(r,c,"*")/n
tabls <- r2dtable(n.iter,r,c)
for(i in 1:n.iter){
tmp <- tabls[[i]]
x11s[i] <- tmp[1,1]
fout <- fisher.test(tmp)
fps[i] <- fout$p.value
chout <- chisq.test(tmp,correct=FALSE)
ps[i] <- chout$p.value
chisqs[i] <- chout$statistic
tmp2 <- tmp[which(tmp!=0)]
infs[i] <- sum(tmp2/n*log(tmp2/n))
chisqs2[i] <- 2*n*(infs[i] - sum(tmp2/n*log(tmp.e/n)))
}
plot(chisqs,infs)
plot(fps,infs)
plot(x11s,chisqs)
plot(x11s,infs)
plot(chisqs2,infs)