極限まで分割する

  • 2x2表があるとき、その生起確率は\frac{N!x!y!z!w!}{(x+y)!(z+w)!(x+z)!(y+w)!}。周辺度数が固定しているときx!y!z!w!に比例している
  • 2つの1次元確率密度分布があるとする。2つの分布に従って生起する事象のペアがあるとする。ペアになる事象が独立であるかそうでないかを考える。独立でない場合には、「偏った」2次元確率密度分布が存在することになる。これは、2次元の分割表の2つの軸の分割を極限まで細かくして状況に相当する
  • では、この2次元空間をk分割してそれぞれのセルのことを考慮すれば、周辺度数(2つの分布が相当)を固定して考えたときの、2事象の生起分布の正確生起確率は\prod_{i}^k (N\times p_i) !に比例する(ただしNは総標本数)
  • ここでスターリングの近似を使うと、z! = \sqrt{2\pi z} (\frac{z}{e})^zであるので
  • Q=\prod_{i}^k (N\times p_i) ! = \prod_{i}^k \sqrt{2\pi N p_i} (\frac{N p_i}{e})^{N p_i}
  • 対数を取って\log{Q} = k \sqrt{2\pi}+ \sum_i^k ((N p_i-\frac{1}{2})\log{N p_i})-\sum_i^k (N p_i) \log{e}
  • \sum_i^k N p_i = N,\log{e}=1だから
  • \log{Q} = k \sqrt{2\pi} + \sum_i^k ((N p_i-\frac{1}{2})\log{N p_i})-N
  • ここで第2項\sum_i^k ((N p_i -\frac{1}{2})\log{N p_i})は情報量みたいなものだから、分割表の生起確率っていうのは、周辺度数を固定したときの観察分割表の起きやすさであるし、2次元分布の場合は、2つの周辺確率密度分布を固定したときの観察2次元密度分布の起きやすさのようなものであって、それは「情報の量」
  • さらに言えば、独立性を尤度比検定したときの尤度比のようなものでもある
m <- matrix(c(3,4,5,6),2,2)
chisq.test(m,correct=FALSE)

N <- sum(m)
sum(m/N*log(m/N))

n.iter <- 1000
n <- 1000
r <- c(400,600)
c <- c(200,800)
ps <- chisqs <- chisqs2 <- infs <- fps <- x11s <- rep(0,n.iter)
tmp.e <- outer(r,c,"*")/n
tabls <- r2dtable(n.iter,r,c)
for(i in 1:n.iter){
	tmp <- tabls[[i]]
	x11s[i] <- tmp[1,1]
	fout <- fisher.test(tmp)
	fps[i] <- fout$p.value
	chout <- chisq.test(tmp,correct=FALSE)
	ps[i] <- chout$p.value
	chisqs[i] <- chout$statistic
	tmp2 <- tmp[which(tmp!=0)]
	infs[i] <- sum(tmp2/n*log(tmp2/n))
	chisqs2[i] <- 2*n*(infs[i] - sum(tmp2/n*log(tmp.e/n)))
}

plot(chisqs,infs)
plot(fps,infs)

plot(x11s,chisqs)
plot(x11s,infs)

plot(chisqs2,infs)