十分にばらばらでないこと

  • n個の標本値があるとき、その標本分散は(\sum_i^n (x_i-\frac{\sum_i^n x_i}{n})^2)/nと表される
  • これは(\sum_i^n \sum_j^n (x_i-x_j)^2)/(2n^2)でもあるというのはこちらのメモの通り
  • この式(\sum_i^n \sum_j^n (x_i-x_j)^2)/(2n^2)は、すべての値ペアの距離の二乗の平均を2で割ったもの
  • 無限個ある(かもしれない)母集団のすべての値ペアの距離の二乗の平均(それは母集団のすべての値ペアの距離の二乗の期待値)の半分が母集団の不偏分散
  • 式で書けば(描けば?)\int_x \int_y (x-y)^2 f(x)f(y)dxdy、ただしf(x),f(y)は互いに独立な2つの確率変数で同じ確率密度関数を持つようなものの、その密度関数
  • じゃあ、不偏分散っていうのは、ある確率変数の値のペアについて観察されるものなわけなので、それってどうやって計算すればよいの?となる
n.pairs <- 20
x <- rnorm(n.pairs)
y <- rnorm(n.pairs)
sum((x-y)^2)/n.pairs
  • この値は、本当に不偏分散に近いのかをやってみよう
n <- 20
# 何度もサンプリングして試してみよう
n.iter <- 10000
# 第1カラムはペア標本の「標本分散」
# 第2カラムは標本分散
# 第3カラムは1/(n-1)した普遍分散計算式の分散
out <- matrix(0,n.iter,3)

for(i in 1:n.iter){
	x <- rnorm(n)
	y <- rnorm(n)
	v.pairs <- sum((x-y)^2)/length(x)/2
	v.sample <- sum((outer(x,x,"-"))^2)/(2*length(x)^2)
	v.un
	out[i,] <- c(v.pairs,v.sample,)

}
apply(out,2,mean)
  • 確かに。
> apply(out,2,mean)
[1] 0.9924794 0.9412483 0.9965435
  • ということは、\frac{1}{n-1}の秘密は
    • 標本数がn個のとき、「本当に観察してペア数はn/2」であるところ、「n^2ペアを観察していることにしてあって、しかも、n^2ペアのうち、n個は『同じ値のペア』になっている」から、それって、「本当に『同じ値ペア』を観測する確率がほとんどないのに比べて、強烈に高い確率で『同じ値ペア』を観察していることになるから、その分、考慮しないとね」ということ…らしい