念のための基礎的確認事項のメモ



  • HapMapプロジェクトのページはこちら
  • データのダウンロードはこちら
  • LDのダウンロードファイルはこちら
  • HapMap論文(2005年)はこちら
  • LDデータをダウンロードして、使い始める前に、少しだけ、気になることを確認する
    • ゲノム上SNPの間隔について
      • アレル頻度5%以上のSNPについては論文の図を参照(こちら)
      • 染色体19番、アレル頻度選別なしのデータは

      • 低頻度SNPを取り除くことで、インターバルの分布が変化している。妥当な変化と思うが、念のため確認する。
        • 今、SNPインターバル:(平均2kb標準偏差2kbの正規分布)^2、アレル頻度:0-0.5一様分布のSNPがあるとする。全SNPにおけるSNPインターバルの分布とアレル頻度0.1未満のSNPを除外(全SNPの2割を除外)したときのSNPインターバルの分布とを示す。上記のMAF<0.05と全SNPとの関係と同じと考える。

    • SNPペア間距離の分布について
      • 250kbのペアリングウィンドウのデータが公開されているので、ペア間距離は0から250kbの範囲でほぼ均一に分布している。ただし、染色体の両端付近のSNPでは近距離のSNPとのみペアを作るSNPが存在するため、距離の短いSNPのペア数が多くなっている。

    • D', r^2の分布

      • r^2(CBH,ch19)

      • D’=1のSNPペアが非常に多い。その理由は、検体数が45人(CHBの場合)と限られており、低頻度SNP(たとえば、N人 2xN本染色体でsingleton)のSNPが関わるSNPペアは必ずD’=1となるからである。また、上記のように、SNPペアのSNP間距離はほぼ均等だが、短距離のSNPペアだけ多くなっていること、近接するSNPはD’=1、r^2=1となる確率が高いことから、このこともD’=1、r^2=1のSNPペア数が多いことの理由の一部と考えられる。D'では顕著。r^2はごくわずか。

      • D’=1であるSNPペアのみに着目するとこのような分布になる。

上述の通り、SNPペア間距離によらず、一定数のSNPペアでD’=1が発生している。

      • 連鎖不平衡の存在を尤度比で表したLODの値の分布をとると以下のようになる。

      • SNPペア間距離が短いほど、連鎖不平衡が強いペア数が多くなることを反映して、LOD>=2のペア数は距離が近くなると多くなる。

ただし、LODの場合には、連鎖平衡仮説と比べて連鎖不平衡仮説の尤度が高いときに大きくなることを反映し、SNPアレル頻度が低いためにD’値が大きくなっているSNPペアはこの棒に反映されないので、距離が遠くなると、LOD>=2を満たすSNPペアはほぼ消失している。

    • LD算出法について
      • ペアワイズLD用の計算にはEMアルゴリズムを用いている。
      • HapMapプロジェクトのLDインデックスデータは、不明コールを加味しないものとなっている。
      • 厳密に言うと、一部のデータには、収束が不十分なものがあるが、それはごくわずかである。
      • また、さらにごくわずかだが、局所解へ収束していると思われるデータも皆無ではない。