複数のローカスのジェノタイプデータの利用のために



  • 前提
    • 大規模なSNPジェノタイプデータの蓄積とそれを用いた推定ハプロタイプに基づく解析が行われている
    • データ解析の方向性
      • 一般論
        • 物理的に遠隔の複数ローカスのジェノタイプデータを取り扱うことが必須である
        • ローカスのジェノタイプデータはハプロタイプのdiploid型ジェノタイプとして取り扱われていくであろう
        • 複数ローカスジェノタイプデータに基づいて個人間のジェノタイプに基づく距離を定義し、その距離を基に、系統樹的・クラスター的・グラフ的解釈が行われる可能性が高い
      • 特化事項
        • 多民族に関するデータの管理が必要
        • 由来親の性別を区別した管理がimprintingを念頭においたデータ管理には必要
  • データ管理において具体的に実現されるべき項目
    • 個人のジェノタイプデータのローカス別ハプロタイプ
    • 母方由来・父方由来の区別
    • 民族特異的SNPの情報の汎民族化(民族内で多型性がなくとも、データとして補完・登録)
  • データハンドリング上、具体的に実現されるべき項目
    • ハプロタイプのdiploid型ジェノタイプ間距離の定義
      • ハプロタイプ間に連鎖不平衡的・機能的な遠近関係が存在しない場合には、すべてのハプロタイプは直交関係
      • ハプロタイプ間に連鎖不平衡的・機能的な遠近関係が存在する場合には、その関係性を組み込む仕組み
        • ハプロタイプ間の機能的遠近関係は生物学的裏づけを必要とする場合が多いと予想されるが、連鎖不平衡敵遠近関係については、ジェノタイプデータをもとに定義することが可能であると考えられ、その方法の確立
    • ローカス間多様性(ハプロタイプアレル数の差・その頻度分布の差)が存在した上で、個人間距離の算出にあたって、個々のローカスを平等に(もしくは、必要に応じて重み付けをして)扱うための仕組み
  • 実践内容
    • 上記事項に対応したデータ管理とデータハンドリングのプロトタイプの作成
    • 大規模タイピングデータを用いて、多ローカスハプロタイプベースジェノタイプに基づく個人間距離行列の作成とそれに基づくクラスタリング系統樹作成

以上