有限観測染色体数における、D’、r^2の動き(算出値が1になる場合)



有限本数の染色体を観測した場合、母集団でのSNPのアレル頻度によらず、ある確率でLD指標のD'、r^2が1となるような観測データが得られる。D'=1となる確率、r^2=1となる確率はそれぞれ、2SNPが作る4ハプロタイプの母集団における頻度および、観測する染色体本数の関数となる。

SNPを用いた連鎖不平衡解析とその指標とに関する記事はこちらの3-3-2-3等を参照

この確率を計算するための、2つのエクセルファイルをアップロードする

ただし、このエクセルは、2SNPが多型であると観測された場合を母数とするように補正してあるので、母集団にて多型である2SNPの片方もしくは両方に多型性を認めない場合を除外してあることに注意。

  • ¥frac{¥sum_{i=1}^{4}(h_i^N+(1-h_i)^N)-¥sum_{i¥not=j}(h_i+h_j)^N}{1-¥sum_{i=1}^{2}(p_i^N+(1-p_i)^N)+¥sum_{i=1}^{4}h_i^N}
    • ただし、p_iはSNP1,2のアレル頻度、h_iハプロタイプ1,2,3,4(00,01,10,11)のアレル頻度
  • 母集団における2SNPのアレル頻度、および、その4ハプロタイプの頻度がわかっているときに、多型として観測しない場合も含めての算出式は以下の通り
  • エクセル1
    • 2SNPのアレル頻度を{0.05,0.1,0.15,0.2,0.25,0.3,0.35,0.4,0.45,0.5}の組み合わせとし、それらが連鎖平衡状態にある場合に、それぞれのアレル頻度組み合わせごとにD'=1、r^2=1を観測する確率を計算し、グラフ表示する。入力値は、観測染色体本数。また、それぞれのアレル頻度にあるSNPの比率を指定することで、あるアレル頻度分布にある多数のSNP集合にて観測されるであろう、連鎖平衡SNPペアのD'=1、r^2=1の頻度の期待値も算出する。入力セルは黄色。
  • エクセル2--上記エクセルは、連鎖平衡にあるSNPについての算出であったが、こちらのエクセルは、4ハプロタイプの頻度と、観測染色体本数を入力し、D'=1、r^2=1を観測する確率を計算する。入力セルは黄色
  • 算出式概説
    • 今、4 haplotypesの頻度をh_1,h_2,h_3,h_4とする。
    • 観測染色体の本数をNとする。
    • 4 heplotypesすべての観測本数が0の確率は0
    • 4 haplotypesのうち、3つの観測本数が0で、残りの1haplotype(i)の観測本数が0でない確率は P(1)_i=h_i^N
    • 4 haplotypesのうち、2つの観測本数が0で、残りの2haplotype(i,j)ですべての染色体が占められる確率はP(1 or 2)_{i,j}=(h_i+h_j)^N
      • 4 haplotypesのうち、2つの観測本数が0で、残りの2haplotype(i,j)はいずれも0でない確率はP(2)_{i,j}=(h_i+h_j)^N-(P(1)_i+P(1)_j)
    • 4 haplotypesのうち、1つの観測本数が0で、残りの3haplotype(i,j,k)ですべての染色体が占められる確率はP(1 or 2 or 3)_{i,j,k}=(h_i+h_j+h_k)^N
      • 4 haplotypesのうち、1つの観測本数が0で、残りの3haplotype(i,j,k)はいずれも0でない確率はP(3)_{i,j.k}=(h_i+h_j+h_k)^N-(P(2)_{i,j}+P(2)_{i,k}+P(2)_{j,k}+P(1)_i+P(1)_j+P(1)_k)
    • 4 haplotypesのうち、すべてのハプロタイプが0でない確率は1-(P(3)_{i,j,k}+P{i,j,l}+P(3)_{i,k,l}+P(3)_{j,k,l}+P(2)_{i,j}+P(2)_{i,k}+P(2)_{i,l}+P(2)_{j,k}+P(2)_{j,l}+P(2)_{k,l}+P(1)_i+P(1)_j+P(1)_k+P(1)_l)
    • これらの総和は1になる。しかしながら、P(1)_iP(2)_{00,01},P(2)_{00,10},P(2)_{01,11},P(2)_{10,11}は2SNPのうち、1SNPもしくは、2SNPにて多型性を認めていないので、これらに相当する確率を除いた確率の和にて除した値を上述のエクセルにて計算している