アルファ版エクセルファイル
常染色体のSNPペアについて、トリオデータをもとにハプロタイプ頻度推定をし、その連鎖不平衡係数を計算することについて
先日、掲載した2つのエクセルファイル(こちらの記事)は、若干の修正をして、再アップロードした
再アップロードにあたり、留意する点は次の通り
- トリオでは、トリオ数x両親の染色体4本 についての推定がなされる
- EM繰り返し計算の初期ハプロタイプ頻度
- 親子3人そろってヘテロ-ヘテロ(2SNPのジェノタイプがヘテロ:ダブルへテロ)の場合
- 親子3人がそろってダブルへテロの場合、その3人のハプロタイプの取り合わせは次の2通りに限られる
- 父{AB,ab}母{AB,ab}子{AB,ab}・・・パターン1
- 父{Ab,aB}母{Ab,aB}子{Ab,aB}・・・パターン2
- このパターンにおいて、ハプロタイプ頻度P(AB),P(Ab),P(aB),P(ab)が知られているときの尤度は、P(AB)*P(ab)*P(AB)*P(ab) vs. P(Ab)*P(aB)*P(Ab)*P(aB)となるので、この分配則にてEM iterationを進めるのが適当だと考えられる
- アルファ版エクセルはこの方式にしてある
- ただし、HapMapのデータ(Haploviewに準拠した計算であるとされる)については、この負分配則によらず、P(AB)*P(ab vs. P(Ab)*P(aB) の分配則(通常のダブルへテロ個体の分配則)になっている模様である。HapMapのLD公開データが、P(AB)*P(ab vs. P(Ab)*P(aB) の分配則で算出してみた値に一致し、P(AB)*P(ab)*P(AB)*P(ab) vs. P(Ab)*P(aB)*P(Ab)*P(aB) の分配則で算出した値と一致しないことが、その根拠の1つである。また、HaploviewのソースもP(AB)*P(ab)*P(AB)*P(ab) vs. P(Ab)*P(aB)*P(Ab)*P(aB) を示す式を持たないように見受けられた(こちらの確認は、かなり大雑把)
- 親子3人がそろってダブルへテロの場合、その3人のハプロタイプの取り合わせは次の2通りに限られる