Nucleotide polymorphism



ある集団で、n本の染色体の長さkの配列を観測したところ、m箇所に多型性が認められた。

今、


Principles of Population Genetics

Principles of Population Genetics

のp53の例で言うと、n=5,k=500,m=16で、その多型箇所の配列は


TCTACCTCCTCGGTTA
TCCTACCTCCTGGTTT
CTCCCCCTCTTTGCTA
CTCCCCCTTCTGACTT
CTCCCTCTTTTGGCCA

となっている。このデータからは、次のHeterogeneity情報が取られる。

S 全長における多型箇所の比率 0.032

theta : the level of nucleotide polymorphismの期待値 0.015360000000000002

V(theta) : the level of nucleotide polymorphismの期待値の分散 9.213050880000004E-5

S=¥frac{m}{k}

theta = ¥frac{S}{a_1}

V(theta)=¥frac{theta}{k¥times a_1} + ¥frac{a_2 ¥times (theta)^2}{a_1^2}

ただし、a1=¥sum_{i=1}^{n-1}¥frac{1}{i}, a2 =¥sum_{i=1}^{n-1}¥frac{1}{i^2}

そのソースは次項のNucleotide diversityのそれと一括で示す