真の関連と間接的関連

2SNPがある。アリル頻度が、P(1),P(2)とする。この2SNPのLD関係はr(1,2)^2で表されるとする。2SNPの作る4ハプロタイプの頻度は、
h1=P(1)P(2)+r(1,2)\sqrt{P(1)(1-P(1))P(2)(1-P(2))}
h2=P(1)(1-P(2))-r(1,2)\sqrt{P(1)(1-P(1))P(2)(1-P(2))}
h3=(1-P(1))P(2)-r(1,2)\sqrt{P(1)(1-P(1))P(2)(1-P(2))}
h4=(1-P(1))(1-P(2))+r(1,2)\sqrt{P(1)(1-P(1))P(2)(1-P(2))}
今、有病率P(3)の疾患があって、この疾患と第一のSNPのアリルとに関連があるとする。
もう片方のSNPは、疾患とは関係がないが、LDがあるために、間接的な関連が観察されるものとする。
関連の強さは、相対危険度としてgとする。
ケースとコントロールのサンプリングを有病率に忠実に、総サンプル数Nで行ったときの、カイ自乗統計量を\chi^2としたときに、N\times r(1,3)^2=\chi^2とすると、r(1,3)を用いてgを表すことができて、それは、
g=1+\frac{1}{P(1)\frac{\sqrt{\frac{P(3)(1-P(1))}{(1-P(3))P(1)}}}{r(1,3)}-1}
このときr(2,3)=r(1,2)\times r(1,3)となる。
その上で、
h(1,1,1)=\frac{g\times h1}{K}P(3)
h(1,2,1)=\frac{g\times h2}{K}P(3)
h(2,1,1)=\frac{\times h3}{K}P(3)
h(2,2,1)=\frac{\times h4}{K}P(3)
h(1,1,2)=h1-\frac{g\times h1}{K}P(3)
h(1,2,2)=h2-\frac{g\times h2}{K}P(3)
h(2,1,2)=h3-\frac{\times h3}{K}P(3)
h(2,2,2)=h4-\frac{\times h4}{K}P(3)
ただし、
K=gP(1)+P(2)