アルファ版エクセルファイル



常染色体のSNPペアについて、トリオデータをもとにハプロタイプ頻度推定をし、その連鎖不平衡係数を計算することについて

先日、掲載した2つのエクセルファイル(こちらの記事)は、若干の修正をして、再アップロードした

  • メンデルの法則を満たさないデータを用いない版(こちら)
  • メンデルの法則を満たさないデータは親データについて、単独個人として用いる版(こちら)

再アップロードにあたり、留意する点は次の通り

  • トリオでは、トリオ数x両親の染色体4本 についての推定がなされる
  • EM繰り返し計算の初期ハプロタイプ頻度
    • は、たいていの場合、何を与えても、しかるべき値に収束することが多いが、D'=1,r^2=1等に収束するかどうかは、初期ハプロタイプに依存する率がかなり高率である。前回アップロードしたベータ版は、初期ハプロタイプ頻度を「確定的ハプロタイプ本数+不確定ハプロタイプ本数x0.5」にて与えていた。ここを「確定的ハプロタイプ本数+0.1本」に変更した
    • この変更により、Haploviewのソースとほぼ同等になった
    • この変更は、理化学研究所 遺伝子多型研究センター 関節リウマチチームのハプロタイプ推定エクセルのうち、2SNPのそれのすべてに、同時に施した
  • 親子3人そろってヘテロ-ヘテロ(2SNPのジェノタイプがヘテロ:ダブルへテロ)の場合
    • 親子3人がそろってダブルへテロの場合、その3人のハプロタイプの取り合わせは次の2通りに限られる
      • 父{AB,ab}母{AB,ab}子{AB,ab}・・・パターン1
      • 父{Ab,aB}母{Ab,aB}子{Ab,aB}・・・パターン2
    • このパターンにおいて、ハプロタイプ頻度P(AB),P(Ab),P(aB),P(ab)が知られているときの尤度は、P(AB)*P(ab)*P(AB)*P(ab) vs. P(Ab)*P(aB)*P(Ab)*P(aB)となるので、この分配則にてEM iterationを進めるのが適当だと考えられる
    • アルファ版エクセルはこの方式にしてある
    • ただし、HapMapのデータ(Haploviewに準拠した計算であるとされる)については、この負分配則によらず、P(AB)*P(ab vs. P(Ab)*P(aB) の分配則(通常のダブルへテロ個体の分配則)になっている模様である。HapMapのLD公開データが、P(AB)*P(ab vs. P(Ab)*P(aB) の分配則で算出してみた値に一致し、P(AB)*P(ab)*P(AB)*P(ab) vs. P(Ab)*P(aB)*P(Ab)*P(aB) の分配則で算出した値と一致しないことが、その根拠の1つである。また、HaploviewのソースもP(AB)*P(ab)*P(AB)*P(ab) vs. P(Ab)*P(aB)*P(Ab)*P(aB) を示す式を持たないように見受けられた(こちらの確認は、かなり大雑把)