2分岐木ARGのMCMC構築



Zollner et al(2005)の例

  • 推定過程は着目点をはさんで左右両側で行う
  • 変数
    • Neutral coalecent and recombination モデルを規定する変数
      • 組換え率 ¥theta/2
      • 変異率 ¥rho/2
      • これら2つの率はARG構築過程で不明な変数である
    • ある位置におけるARGは2分岐木である(親ハプロタイプは1本)
      • あるハプロタイプのその親との関係は、解析対象領域の全範囲のすべてを受け継いでいるか、その範囲に組換えが発生し、「ある位置」を含んだ限定範囲のみを受け継いでいるかのいずれかである
      • この「受け継いでいる範囲  R 」は、ARG構築過程で不明な変数である
    • 2分岐木ARGの特徴
      • 現時点ハプロタイプn本は「External nodes」と呼び、木の末梢の「先端」にあたる
      • Coalecsentにより全部で2n-1ノードからなる木が形成される。Coalescent eventがおきるたびに、ノードのをn+1から順につけていくと、2n-1番のノードがMost recent common ancestorとなる
        • これらn+1,...,2n-1ハプロタイプのアレル情報もARG構築過程で不明な変数である S
      • 木の形態を定義するにあたり、そのほかに必要な情報は、n-1回起きるCoalescent eventsの発生時刻間隔(要素数n-1個の情報)  ¥Omega と、ノード間距離(MRCA以外のノードについて、その親との距離)の情報(要素数n-1個の情報) ¥tau である
      • この木の形態を定義する変数もまた、ARG構築過程で不明な変数である
    • ARG構築における推定
      • 木の形態を定義する ¥Omega,¥tau を推定するのが、主目的
      • その過程で、同時にその他の変数 ¥theta/2,¥rho/2,R,S も推定される
  • 変数推定の更新過程
  • Mutation model
    • finite sites mutation model(同じマーカーに何度でも変異が起きることを許す→あらゆるハプロタイプ間で親子関係が成立する可能性がある→あらゆるARGトポロジーにおいて尤度がゼロにならない)
    • 親子関係が推定されたハプロタイプの間については、組換えが起きたことで伝達関係が説明できる確率と、組換えが起きなかったことで伝達関係が説明できる関係との両方を考慮して、その尤度を計算する
  • Haplotype probabilities
    • 親世代ハプロタイプがペアを作り、その組換え体が生じるときの尤度の計算には、親世代ハプロタイプの存在頻度に基づいたサンプリングをする必要が出る
    • このとき、推定過程でサンプルとして登場しているハプロタイプ度数に単純に1を加えた度数に比例したDirichlet分布サンプリングを行う(この部分のやや詳しい説明はこちら)
  • Recombination
    • 組換え関係をそれぞれの位置に作成する木のすべてに適用することを試みた場合には、尤度がゼロになることもある
  • MCMC開始時の木の構造(トポロジー¥Omegaと枝の長さ¥tau)
    • 各マーカーについて独立に作成する
    • Coalescent時刻の間隔はそのときどきの構成ハプロタイプメンバーの数が、相互に独立にペアを作ってCoalesceするものとして決める
    • Coalesceするペアのとり方についても、そのときどきの構成ハプロタイプメンバーをそれぞれ独立に選ぶ
    • そのときの組換え率・変異率は一様分布とする
  • 作成された木の尤度
    • 組換えによってさえぎられることなく受け継いでいる範囲の変数Rと観測ハプロタイプ以外のハプロタイプのアレル情報Sとを分離して順次計算する
    • [tex:R]については、木のエッジの数だけひとつずつ順番に推定値を決めながら、すべてのエッジについて推定値を推定するに至らせる。その決める順番は、現代に近い側からである。そうすることで、伝達される範囲の必要な値はすでに決まった状況で計算できる
    • Sについても同様に、2n-1個の非観測ハプロタイプについて、ひとつずつ順番に推定アレルを決定し、その決定結果をもって最終的にすべての非観測ハプロタイプの推定値を得る。この場合は、木の根(MRCA)から始めることで、MRCAはその時点で自身のハプロタイプしか存在しないので、それが伝達するべき情報さえ決まっていれば、その他のハプロタイプのアレル情報に依存せずに尤度計算が可能であり、それより子孫側の尤度は祖先側が決まっていれば、その条件に基づいた尤度の計算が可能である
  • MCMC updates
    • ある木から次の木へ推移する場合には、変更可能な変数(観測ハプロタイプのアレル情報以外:トポロジー、組換え位置、Coalescent時間、アレル、組換え率、変異率)を変化させて評価する
    • 2種類の変化をさせる
      • Local update
        • ノードの周辺の情報を参照しつつ、あるノードにつながるノードに属する変数を変化させる
      • Minor rearrangements
        • 1つのノードを選び、その周辺につき、ハプロタイプの世代の上下関係は変えずに、ノードの結び方を帰る。もともとcommon ancestorによってひとつらなりだった、ノード間での付け替え
      • Major rearrangements
        • Minor rearrangementsと違い、もともとcommon ancestorで直接には繋がっていなかったCoalesce関係を挿げ替える
      • Reordering of Coalescent events
        • 時間軸を無視すれば、トポロジーとしては変えないが、Coalescentの時刻を変えることで、ARGとしての木の構造を変える
    • Metropolis-Hastingsでupdateが採用されるか否かを決める