第3限 SNP-SNPペア間の連鎖不平衡の評価



  • 2マーカー間の連鎖不平衡関係を評価するとは、2マーカーが作るハプロタイプ(SNP2個の場合は4ハプロタイプ)の頻度の分布をもとに、「連鎖不平衡の程度」を「量」で表す方法と、「連鎖不平衡」の存在を「質(検定)」で表す方法とに分かれる
  • いずれも、ハプロタイプ頻度が必要である。2マーカーのハプロタイプフェージングは簡単であるので、もっとも安定しているEMアルゴリズムによるハプロタイプ推定頻度を用いるのが通常である。
  • Haploviewでは、LDplotタブで2次元LDプロットを表示させた上で、メニューバーのFileから、Export current tab to textを選ぶと次のようなテキストファイルが得られる

L1 L2 D' LOD r^2 CIlow CIhi Dist T-int
1 2 1.0 0.41 0.027 0.07 0.98 4921 0.41

    • L1 L2はマーカー名、D'とr^2はLDの程度の指標(後述)、LODは連鎖不平衡がない(連鎖平衡状態である)との帰無仮説に対する質的評価指標である、LOD。また、連鎖不平衡の有無は、検定の対象となることからわかるとおり、連鎖不平衡係数にも「信頼区間」がある。CIlow CIhiはD'の95%信頼区間の下限値と上限値である。D'の信頼区間が示され、r^2のそれが示されないのは、LD指標を用いてLDブロックを定義するGabriel's 法が、D'の95%信頼区間アルゴリズムに取り入れているからである。Distは2点間の距離。T-intはHapMapプロジェクトで用いるSNPペアに与える値(詳細未確認)
  • 連鎖不平衡の程度の量的指標
    • D'とr^2(r^2,¥delta^2とも)は、複数ある2SNP間の連鎖不平衡係数のうちの2つである。D'とr^2以外はほぼ使われていない。
    • どちらも、2SNPが完全連鎖にあって、2ハプロタイプしか存在しない場合には、1をとる。
    • ハプロタイプしか存在しない場合には、D'は1をとり、r^2は1より小さい値をとる。この違いは次のように考えるとわかりやすい
      • 今、2つのSNPのアレルをそれぞれ0,1で表すとする
      • あるとき、2SNPの作るハプロタイプとして00のみを有する集団と11のみを有する集団があって、それが混ざったとする。組み換えが起きるまでは、その混合集団には00と11しかなく、組み換えが起きて初めて01もしくは10のハプロタイプが発生する。このように考えると、00、11のみの状態が組み換えのない状態で、01が混じた段階は組み換えが起きた後の状態であるとみなせる。この立場で組み換えのない状態を1とし、組み換えの起きたあとの状態を1より小として表したのがr^2である
      • 他方、ある1つの集団を考え、はじめは00しかなかったところに、変異が起きて01ハプロタイプが生まれ、さらに変異が起きて11ハプロタイプが生じたとすると、00,01,11の3ハプロタイプがある段階というのは、いまだ、組み換えが起きていない状態である。この立場に立つと可能な4ハプロタイプのうち3ハプロタイプしか認められない段階は、無組み換えなので、連鎖不平衡係数として1を与えてもよい。この立場にあるのがD'である。4 gamete testもこの立場(4ハプロタイプがあって初めて、2マーカー間に組み換えがあったものとする)である。
    • D'とr^2とのもうひとつの大きな違いは、SNPを関連マーカーとしてとらえたときに、高いD'関係にある近傍SNPよりも、高いr^2関係にある近傍SNPの方が関連解析上の統計量(たとえばカイ自乗値など)の相関が高い、という事実がある。
    • 参考となる別記載はこちら
    • D'とr^2の違いを確認するエクセルファイルはこちら
    • より詳しい記載はこちら
    • D'の信頼区間
      • D'の95% 信頼区間(95%CI)を算出し、D'算出値、95%CIの上限値・下限値を用いる
        • D'の95%CIの算出方法については近似法(解説文書はこちら)もあるが、GabrielらはD'の正確確率分布とその5パーセンタイル・95パーセンタイルを算出している
        • "Confidence limits were determined by calculating the probability of the observed data for all possible values of D', from which an overall probability distribution was determined. The upper and lower bounds represent the 5% tails of the overall probability distribution.---Sience論文のSuppl.Methodsより"
    • LOD
  • 上述のD'は2アレル多型間で定義されたものだが、多アレル多型間に拡張したものが、Multiallelic D'である。Haploviewでは、ブロック間において、Multiallelic D'を算出し、ブロック間のそれをブロック内ハプロタイプ-隣接ブロック内ハプロタイプたすきがけ図とともに提示している。Multiallelic D'の指標としての特徴は、0-1の範囲をとり、組換え履歴との関係はD'のそれと同様(説明記事はこちら)