次世代シークエンサーでジェノタイプコール

  • レビュー:Genotype and SNP calling from next-generation sequencing data.Nat Rev Genet. 2011 Jun;12(6):443-51.
  • 論文:A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nature Genetics 43, 491–498 (2011)
  • 次世代シークエンサーデータでの配列決定〜ジェノタイプコールとは、『実験データを用いて、個人のジェノタイプを推定する』という作業が、『推定作業』であることの意識を高めた作業である、といえる
  • 旧世代までのシークエンス実験や、特定の財に関するジェノタイピング実験というものは、「そこにDNA分子として存在するもの」を直接、見に行って、見てきた結果を書き記している、という感覚で、実験結果を解釈していた、と言っても言い過ぎではないだろう。
  • 次世代シークエンサーデータでは、『そもそも、正確に読み切れていないデータ』を『デプス』によって、確度を上げて、『推定精度』を確保しよう、というプロセスであるように、塩基配列、個々の座位のジェノタイプは、「確定しがた」く、推定結果である、確率付きの情報である、という意識が高い。(その意識を捨てるときには、『ばっさり』と「怪しきは採用せず」という、『粗い』データQCがなされている)
  • 塩基配列・ジェノタイプが「確率的」であることを前提にする、とも言い換えられる
  • 上掲の2ペイパーは、「確率的」に決める方法と手法間の差異などに関する記載を多く含む
  • さて。
  • 実験手法としては、この先「推定精度」を上げる方向で進み、かなり高速に、「確率的」であることを忘れられるほど、精度が上がるかもしれない
  • とはいえ、「確率的」な塩基配列・ジェノタイプが出るというのなら、「確率的」なままで、何がどれくらい言えるか、という観点でデータを扱うことも必要になるかもしれない
  • たとえば
    • デプスが違う、個人の次世代データの「メタアナリシス」は、個人のジェノタイプを確率的に出してから「メタ」で合わせるのではなく、「確率的」情報を出すその前のデータで「メタ」する、とか
    • 誤りがあったとしても、それが系統だっている限りは、「誤りか真の多様性か」の区別をせずに集計・統計量算出をして、「検定」してしまう、とか