CADDメモ

  • CADD論文
  • 変異シミュレーション
    • 基本はGeneralized Time Reverisible model (GTR model)→こちら
      • 要するに塩基の置換のルール行列
    • ただし、CpG-specific mutation rateを想定して染色体の位置ごとにmutation rateを与える方式
    • ヒトの変異の発生・定着の歴史を振り返るには、他の霊長類との共通祖先アレルが何で…と言う情報が必要(ここではヒト-チンパンジー共祖)で、そこからスタートしてシミュレーションしないといけないが、それについてはEnsembleのEnredo-Pecan-Ortheusの6 primatesの結果を用いた(こちら)
  • ヒトの現有変異リストの作成
    • シミュレーション変異と現存変異とを比べるにあたり、ヒト-チンパンジー共祖アレルと違っているもの、という意味なので、上記EPOを参照するとともに、ヒトの多型サイトについては、大多数のアレルがヒト-チンパンジー共祖アレルと異なっている箇所を採用
    • In/Delも
  • サポートベクターマシンによって、現有とシミュレーションを分ける超平面の検出
    • 平面を作る要素は以下のようにたくさん
      • 63個の量的変数、11個のぶーリアン変数、カテゴリ変数はカテゴリーを表現するためのダミー変数が入るので、結局、SVMで回すときは949変数
      • バリアントの遺伝子構造との位置関係はVEP(Variant Effect Predictor)が提供する17クラス
      • コーディング領域についてはSIFT,PolyPhen-2のスコアも同様にVEPから入手
      • それらに加えて56変数を追加(サプルのテーブル1に全項目のリスト)
    • トレーニングセットx10
    • モデルのテストとバリデーション