離散ラプラス分布

  • Y染色体は染色体全体のハプロタイプを問題にする、という特別な事情があるために、集団にどんなハプロタイプがどれくらいの割合であるのか、とか、二つのY染色体ハプロタイプがたまたま一致する確率はどれくらいか、と言うことが問題になります。
  • しかしながら、染色体全体のハプロタイプを問題にするので、ハプロタイプの種類数が膨大になります。
  • そんな事情から、限られた数の集団のYハプロタイプデータベースを用いて、Y染色体ハプロタイプの分布がどうなっているのかを推定しつつ、現場のY染色体ハプロタイプと容疑者のそれとが一致したときの証拠力をどう数値化するか、ということが課題になるのだ、と言うことでした。
  • Y染色体は組み換えは起こしませんが、STRのリピート数は変化します。その変化は1個増えたり、1個減ったりの繰り返しなので、以下のような話になります
  • そこで、離散ラプラス分布
  • 整数値をとる何かを考える。
  • ある基準値があって、その値から、指数的に頻度が減るとする。
  • たとえば、STRのリピート数が14を主とするけれど、ときどきリピート数が1増えたり1減ったりする、というような
  • このとき、P(X=m+k) = P(X=m)*t^k,P(X=m-k) = P(X=m)*t^k; k \ge 0,0 \le t < 1とみなす
  • こんな整数変数Xについて確率質量関数がどうなるかというとP(X=x) = \frac{1+p}{1-p}p^{|x-m|}
  • Rではdisclapパッケージにddisclap()関数としてあるが、書くのはまあ簡単なので
my.ddisclap <- function(x,p,m=0){
	((1-p)/(1+p))*p^abs(x-m)
}
  • ちなみに、普通の(連続版の)ラプラス関数も同じに書いてしまえば
my.dcontlap <- function(x,b,m=0){
	1/(2*b)*exp(-abs(x-m)/b)
}
  • それぞれ、どういう式になっているかというと、中心からの距離|x-m|を使ってp^{|x-m|}とすることで、|x-m|が1増えると、p倍になる、としているのが離散版。e^{-\frac{|x-m|}{b}として、|x-m|が1増えると、e^{-\frac{1}{b}倍になる、というのが連続版。
  • \frac{1-p}{1+p}という離散版の部分は、負の∞から正の∞までの足し合わせが1になるようにする補正係数。これがこの値になるのは、1,p,p^2,...という無限数列の和がいくつに収束するか、という問題を解けば得られる
  • 同様に、連続版の\frac{1}{2b}の方は\int_0^{\infty} C e^{-{x}{b}} dx=0.5となるような係数Cを求めたものになっている