本当のレアバリアントと見かけのレアバリアント

  • 限定された本数の観測データがあって、標本におけるマイナーアレルの比率が低いとき、その中にはどれくらいの本当のレアバリアントが含まれ、どれくらいの「本当はコモンバリアントだけれど、たまたま少ない本数しかマイナーアレルを示さなかった」ものが含まれるかは、母集団のマイナーアレル頻度別バリアント分布に依存する話だが…
  • そんな話→
# SNP,rare variantsの母集団でのアレル頻度別割合を
# 指数関数で近似する
# そのパラメタ
m <- 20
# アレル頻度別のバリアント割合をプロット
x <- seq(from=0,to=1,length=1000)
fx <- m * exp(-m*x)
plot(x,fx,type="l")

# N本の染色体をスクリーニングする
N <- 100

# 観察されるのは、N本のうち、0,1,2,...,N本が変異型として見つけられる
# 母集団の頻度に応じて2項分布になる
n <- 0:N
n2 <- N:0

# シミュレーションでやってみよう
# M箇所でそれをやれば
M <- 1000

ret <- rep(0,N+1)

tmp <- lgamma(N+1)-lgamma(n+1)-lgamma(n2+1)
for(i in 1:M){
	p <- rexp(1,m)
	tmp2 <- n*log(p)+n2*log(1-p)
	ret <- ret + exp(tmp+tmp2)
}
# すべてがワイルドタイプの場合n[1]を除いてプロットする
plot(n[-1],ret[-1])