- n個の標本値があるとき、その標本分散はと表される
- これはでもあるというのはこちらのメモの通り
- この式は、すべての値ペアの距離の二乗の平均を2で割ったもの
- 無限個ある(かもしれない)母集団のすべての値ペアの距離の二乗の平均(それは母集団のすべての値ペアの距離の二乗の期待値)の半分が母集団の不偏分散
- 式で書けば(描けば?)、ただしは互いに独立な2つの確率変数で同じ確率密度関数を持つようなものの、その密度関数
- じゃあ、不偏分散っていうのは、ある確率変数の値のペアについて観察されるものなわけなので、それってどうやって計算すればよいの?となる
n.pairs <- 20
x <- rnorm(n.pairs)
y <- rnorm(n.pairs)
sum((x-y)^2)/n.pairs
n <- 20
n.iter <- 10000
out <- matrix(0,n.iter,3)
for(i in 1:n.iter){
x <- rnorm(n)
y <- rnorm(n)
v.pairs <- sum((x-y)^2)/length(x)/2
v.sample <- sum((outer(x,x,"-"))^2)/(2*length(x)^2)
v.un
out[i,] <- c(v.pairs,v.sample,)
}
apply(out,2,mean)
> apply(out,2,mean)
[1] 0.9924794 0.9412483 0.9965435
- ということは、の秘密は
- 標本数がn個のとき、「本当に観察してペア数はn/2」であるところ、「n^2ペアを観察していることにしてあって、しかも、n^2ペアのうち、n個は『同じ値のペア』になっている」から、それって、「本当に『同じ値ペア』を観測する確率がほとんどないのに比べて、強烈に高い確率で『同じ値ペア』を観察していることになるから、その分、考慮しないとね」ということ…らしい