Matthew Stephens - PHASE software for haplotype estimation-Phase unknownのdiploidデータからハプロタイプを推定する方法についての概説



  • イントロダクション
    • 何を推定するのか
    • なぜハプロタイプ推定が必要なのか
      • 集団ハプロタイプ推定の場合
        • 観測された個人は、集団の「一部」「代表」であり、集団そのものではない
        • 「一部」「代表」のデータを用いて、集団のハプロタイプ頻度を「予測する」
      • 個人ハプロタイプ推定の場合
        • 観測された個人のデータから、その個人のハプロタイプ構成が「わかる」場合と「わからない」場合がある
        • 「わかる」場合は、N個のSNPのうち、すべて、もしくはN-1個のSNPがホモで0個もしくは1個のSNPがヘテロであるときである
        • 「わからない」場合は、N個のSNPのうち、2個以上のSNPがヘテロのときである
          • 「わからない」場合には、その個人のジェノタイプデータをいくら見ていてもハプロタイプセットは「予測」できない
          • その個人以外のデータと併せて考えることによって、「予測」が可能になる
  • ハプロタイプ推定の方法
  • ハプロタイプ推定方法の大分類
    • 決定論的(deterministic)
      • EM(期待値最大化論理)
      • Perfect Phylogeny
    • 試行依存的(ただし、確率論的でもない)
      • Maximum parsimony(倹約的論理)
    • 確率論的(Stochastic)
      • Markov chain-Monte carlo(MCMC) + Gibbs sampling
        • PHASE
        • PL(Baysian)
        • Haplotyper
        • PLEM
        • SNPHAP
  • 決定論的方法と確率論的方法の違い
    • 決定論的方法
      • 同じデータに対して何回、推定をしても、いつも結果は同じ
    • 確率論的方法
      • 解析ごとに少しずつ結果が異なる
        • 乱数を使って試行を繰り返し、そのたくさんの試行の結果を集約して結果を得るため
  • 推定が前提としている遺伝モデル
    • 決定論的方法
      • Maximum parsimony(Clark's)
        • なし
      • EM
        • Hardy Weinberg Equilibrium
      • PPH
        • Coalescent with infinite-sites model; No recombination.
    • 確率論的方法
      • PHASE
        • Coalescent
      • PL
        • Recombinaion(本来Recombinationをモデル化するために組み込まれたアルゴリズムではないが、結果として、Recombinationの存在する長い領域についても推定が可能となっている)
  • アルゴリズム
    • Bayesian
    • EM
    • Markov chain-Monte carlo
    • Gibbs sampling
    • Coalescent +- recombination + infinite site model
    • Partition & Ligation
  • 個々の方法・アルゴリズムの特徴
    • Clark's method
      • 方法
        • 個々人のdiploidデータから、「確実に存在するハプロタイプ」を決定する
        • ひとたび「存在する」とみなされたハプロタイプをもとに、ハプロタイプセットが不確定な個人のハプロタイプセットを決めていく
        • だんだんに「確実に存在するハプロタイプ」が増える
        • すべての個人のハプロタイプがこの手順で「確実に存在するハプロタイプ」で明らかになったら終わり
        • 利点
          • わかりやすい
          • HWEやcoalescentなど「モデル」を仮定しない
        • 欠点
          • 解けないことがある
          • 特に、解析スタート時に「確実に存在するハプロタイプ」が決められなければ、始まらない
          • ヘテロな領域(組換えを多く含んだ範囲)では解けない
          • 解が不定
    • EM
      • 方法
      • 利点
        • EMアルゴリズムが収束することは、確認されている
        • 得られる解は、初期設定値の影響を受けることがあるが、かなり確実に「真の最尤解」に到達する
      • 欠点
        • SNP数に限界がある(ヘテロか否かによらず)(せいぜい20、現実的には10くらいまで)
        • ときとして"local maxima"が解となる場合もある
    • PHASE
      • 方法
        • MCMC-Gibbsである
        • Coalescentを仮定する
      • 欠点
        • 時間がかかる
    • PPH
    • PL
      • 方法
        • 推定の容易な小範囲ごとに推定を行う
        • 小範囲をつなぎ合わせる
        • 小範囲はMCMC-GibbsでおこなったりEMで行ったりできる
        • "Imperfect PPH", modified-PHASE,PLEM,Haplotyper,SNPHAPに採用されている
      • 利点
        • 長大範囲も可能
        • Recombinationに強い
        • 速い
        • Coalescentなどモデルを仮定する必要が必ずしもない
      • 欠点
        • 最適解に落ちるかどうかが厳密には難しい(小範囲のデータがもたらす"local maxima"に落ちる危険性)
  • その他関連事項
    • MCMC-Gibbs sampling
      • 個々人のハプロタイプセットを与える
      • ついで、ある個人のハプロタイプを設定しなおす
      • 設定しなおしにあたっては、その時点で与えてある、その他の個人のハプロタイプ頻度を用いて確率的に設定する
      • 繰り返す
    • Coalescent仮定
    • infinite-sites 仮定
      • ある塩基に変異は1度しかおきないとする仮定