ARGをシミュレーションで作成する



まずは、既存の設定をなぞる。ひとつは以前書いた、Yang et al. の設定が参考になる(こちら)。もうひとつはここ数日ARG関係で引いている論文の設定である。関連記事はこちら。本記事では、こちらのパラメタ設定を記す。論文中には明示していないが、ARG作成にあたってはWright-Fisherモデル(説明はこちら)を使っているものと思われる

  • 目指しているデータは
    • ケース・コントロール 連鎖不平衡稠密マッピングに相当するローカスの多型構造
      • 30人ケースと30人コントロール(diploid)
      • 1cMの領域
      • Allelic heterogeneityは"moderate"
  • 集団遺伝学上のパラメタ設定
    • 人口動態:一定
    • 人口:10,000人の集団
    • 組換え率:領域内で一定
    • 変異
      • infinite sites modelに基づき、事象はPoisson過程(関連記事はこちら)
      • 変異率:Minor allele frequencyが10%より大の多型が1cM領域内に45-65個得られるように調整
  • 疾患責任ローカスの選定
    • ゲノム上の位置を領域内よりランダムに(一様分布から)選ぶ
    • ARG上の変異事象はグラフ上のエッジが表す時間に比例して発生させ、back mutation(再度変異が起きて、一度発生した変異が元に戻ること)はないこととする
    • 責任変異はゲノム上、一箇所だが、複数の変異事象に由来しうることとなる
    • 責任変異が集団中で10-20%になったものを採用、ならなかったシミュレーションデータは不採用とした
  • ケースコントロールの決定とサンプリング
    • 作成された20000染色体からなる10000個体につき、責任変異ジェノタイプの浸透率に応じて、ケース・コントロールのフェノタイプを与える
    • ケースフェノタイプ群とコントロールフェノタイプ群とからそれぞれ、サンプリングする(サンプリングにあたっては、サンプリングされた個体を群に戻さない)