分割したときの分布

  • 日本人類遺伝学会での発表にこんなのもあった
  • ゲノムワイドで何かしらの統計量が出せる
  • ある基準でゲノム全体をいくつかに分割する(あまりはない、重複はない)
  • 分割されてできる部分の大きさ(塩基数)は異なる
  • 部分の大きさとその部分に計算される統計量との間に強い相関がある場合と相関が弱い場合とで何が言えるか、とか、相関の強さ・弱さには何を指標にするのか、という話
  • もし、赤白の玉を複数群に分ける分け方、のように考えれば多項分布
  • 学会でのそれは、赤白・ゼロイチのようなものではなく、連続量であって、しかもその値は不明らしい
  • 話をより簡単にするために、「分割」ではなくて、「総数より少ない数」の「リサンプリング」で考えるとどうなる?
  • 標本母集団の平均・分散・モーメントは、標本リサンプリング集団のそれと似ているから、リサンプリングを繰り返して標本母集団のモーメントを知ることはできるだろう(標本母集団のモーメントが算出できるときには、こんなことをしても仕方がないのだが、「分割したり」「小さくしたり」することが計算に(大きな)意味を持つ統計量である(らしい)とすれば、それはそれでよい)。
  • どんな風にリサンプリングしても、標本母集団の推定値としてはそこそこだろうけれど…
  • ここで、こんな風に考える
  • 標本母集団には、無意味なものが多数あって、意味のあるものが少数ある。「総数より少ない数」をリサンプリングすると(一応、replace なしにしておこう、学会のそれが「分割」だったので)、「少数」の意味のあるものが「入る」場合と「入らない」場合とが出てきて、この「離散」具合の影響を受ける。
  • この「離散」具合は、リサンプリング集団の期待値のばらつきをもたらす
  • 意味のあるものが少ないほど、ばらつく

my.moments <- function(x,n){
	ret <- rep(0,n)
	N <- length(x)
	ret[1] <- mean(x)
	if(n>1){
		for(i in 2:n){
			ret[i] <- sum((x-ret[1])^i)/N
		}
	}
	ret
}

# 意味のあるものの数
k<- 40
r<- 15
# 総数
N <- 2^r
X <- c(runif(k/2),sample(1:5,k/2,replace=TRUE))
X <- c(rep(0,N-k),X)
t <- 2^((r-6):(r-1))
n.iter <- 100
p<- 10
moments <- matrix(0,length(t),p)
means <- matrix(0,length(t),n.iter)
for(i in 1:length(t)){
	tmp.moments <- matrix(0,n.iter,p)
	for(j in 1:n.iter){
		x <- X[sample(1:N,t[i])]
		tmp.moments[j,] <- my.moments(x,p)
	}
	moments[i,] <- apply(tmp.moments,2,mean)
	means[i,] <- tmp.moments[,1]
}
par(mfcol=c(1,2))
boxplot(t(means))
plot(t,apply(means,1,sd))
par(mfcol=c(1,1))