進化学ベースでのハプロタイプ系統樹



連鎖不平衡解析などにおいて、組換えを考慮に入れるべき状況にあっては、距離行列が不適切であることに留意。

現在、論文でもっともよく目にするタイプのハプロタイプ同士の親子関係(祖先・子孫関係)の図は、次のような方法である。Arlequin 2.000 のマニュアル参照

系統樹学的アプローチとしてn種類のハプロタイプの集合があった場合に、ハプロタイプペア(nxnペア)の距離を定義すると距離行列が作成される。ハプロタイプをノードとしハプロタイプペアを結ぶエッジに距離の重みを与えたグラフについて、最小木(Minimum spanning tree)*1をPrim法やKruskal法で求めて、その最小木をもってハプロタイプ同士の関係図とする方法。進化学・系統樹学の系譜の方法であり、ハプロタイプ間距離の定義に関して、変異を基にし、組換えを考慮していない。

ハプロタイプペア間の距離としては次のような方法がある。

  • SNP型ハプロタイプ("01010010")の場合
    • Number of pairwise differences
  • マイクロサテライト型ハプロタイプの場合
    • Number of pairwise differences
    • Sum of squared size difference
      • 各々のマイクロサテライトのリピート数の違いの自乗を全マイクロサテライトについて足し合わせたものを距離とする
        • d_{xy}=¥sum_{i=1}^L(a_{xi}-a_{yi})^2
  • シークエンスデータの場合
    • Pairwise difference
      • 異なる塩基数
    • Percentage differene
      • 配列全長に対する異なる塩基数の割合
    • Jukes-Cantor correction, Kimura 2 parameters, Tamura, Tajima and Nei, Tamura and Nei
      • 観測上同一の塩基を有していても、同一塩基への変異事象(AからAへ)があることなどを考慮し、DNA配列全長につき、置換型変異と非置換型変異の両方について、配列間に起きていると推定される変異数をもって距離とする方法。変異を起こす塩基の組み合わせにより変異率に差を入れるなどにより、複数の方法に分かれる
  • Gamma correction
    • 配列範囲に均一な変異率を仮定できない場合に、領域の変異率にGamma distribution

を適用する


*1:最小木とその探索アルゴリズムであるPrim法・Krusukal法については、こちら