2006-03-20

有限観測染色体数における、D’、r^2の動き(算出値が１になる場合)

有限本数の染色体を観測した場合、母集団でのSNPのアレル頻度によらず、ある確率でLD指標のD'、r^2が１となるような観測データが得られる。D'=1となる確率、r^2=1となる確率はそれぞれ、２SNPが作る４ハプロタイプの母集団における頻度および、観測する染色体本数の関数となる。

SNPを用いた連鎖不平衡解析とその指標とに関する記事はこちらの３-３-２-３等を参照

この確率を計算するための、２つのエクセルファイルをアップロードする

ただし、このエクセルは、２SNPが多型であると観測された場合を母数とするように補正してあるので、母集団にて多型である２SNPの片方もしくは両方に多型性を認めない場合を除外してあることに注意。

- ただし、 $p_i$ はSNP1,2のアレル頻度、 $h_i$ はハプロタイプ1,2,3,4(00,01,10,11)のアレル頻度
母集団における２SNPのアレル頻度、および、その４ハプロタイプの頻度がわかっているときに、多型として観測しない場合も含めての算出式は以下の通り
- ４ハプロタイプすべての観測する確率
  - $1-(￥sum_{i}^{4}(h_i^N+(1-h_i)^N)-￥sum_{i￥not=j}(h_i+h_j)^N)$
- １ハプロタイプだけがゼロの確率
  - $￥sum_{i}^{4}(3h_i^N+(1-h_i)^N)-2￥sum_{i￥not=j}(h_i+h_j)^N$
- ２ハプロタイプだけがゼロの確率
  - $￥sum_{i￥not=j}(h_i+h_j)^N-3￥sum_{i}^{4}h_i^N$
- 多型性を認めない場合
  - $￥sum_{i}^{4}h_i^N$
エクセル１
- ２SNPのアレル頻度を{0.05,0.1,0.15,0.2,0.25,0.3,0.35,0.4,0.45,0.5}の組み合わせとし、それらが連鎖平衡状態にある場合に、それぞれのアレル頻度組み合わせごとにD'=1、r^2=1を観測する確率を計算し、グラフ表示する。入力値は、観測染色体本数。また、それぞれのアレル頻度にあるSNPの比率を指定することで、あるアレル頻度分布にある多数のSNP集合にて観測されるであろう、連鎖平衡SNPペアのD'=1、r^2=1の頻度の期待値も算出する。入力セルは黄色。
エクセル２--上記エクセルは、連鎖平衡にあるSNPについての算出であったが、こちらのエクセルは、４ハプロタイプの頻度と、観測染色体本数を入力し、D'=1、r^2=1を観測する確率を計算する。入力セルは黄色
算出式概説
- 今、4 haplotypesの頻度を $h_1,h_2,h_3,h_4$ とする。
- 観測染色体の本数をNとする。
- 4 heplotypesすべての観測本数が０の確率は０
- 4 haplotypesのうち、３つの観測本数が０で、残りの１haplotype(i)の観測本数が０でない確率は $P(1)_i=h_i^N$
- 4 haplotypesのうち、２つの観測本数が０で、残りの２haplotype(i,j)ですべての染色体が占められる確率は
  - 4 haplotypesのうち、２つの観測本数が０で、残りの２haplotype(i,j)はいずれも０でない確率は $P(2)_{i,j}=(h_i+h_j)^N-(P(1)_i+P(1)_j)$
- 4 haplotypesのうち、１つの観測本数が０で、残りの３haplotype(i,j,k)ですべての染色体が占められる確率は
  - 4 haplotypesのうち、１つの観測本数が０で、残りの３haplotype(i,j,k)はいずれも０でない確率は $P(3)_{i,j.k}=(h_i+h_j+h_k)^N-(P(2)_{i,j}+P(2)_{i,k}+P(2)_{j,k}+P(1)_i+P(1)_j+P(1)_k)$
- 4 haplotypesのうち、すべてのハプロタイプが０でない確率は $1-(P(3)_{i,j,k}+P{i,j,l}+P(3)_{i,k,l}+P(3)_{j,k,l}+P(2)_{i,j}+P(2)_{i,k}+P(2)_{i,l}+P(2)_{j,k}+P(2)_{j,l}+P(2)_{k,l}+P(1)_i+P(1)_j+P(1)_k+P(1)_l)$
- これらの総和は１になる。しかしながら、 $P(1)_i$ と $P(2)_{00,01},P(2)_{00,10},P(2)_{01,11},P(2)_{10,11}$ は２SNPのうち、１SNPもしくは、２SNPにて多型性を認めていないので、これらに相当する確率を除いた確率の和にて除した値を上述のエクセルにて計算している