Infinite-alleles model



変異が起きて、遺伝子の多様性が増すことを考える。細かく考えると、あるとき、ある染色体に変異が起きてアレルが生まれ、別のときに別の染色体に変異が起きてアレルが生まれたとしたときに、この2つの新たに生まれたアレルは、同一かもしれない。しかしながら、その確率は非常に小さいであろうから、無視することとして、すべての変異が、まったく新しいアレルを生むという仮説がInfinite-alleles modelである。この仮説に基づくと、組み換えを考慮しないと、すべての見かけ上、同一のアレル(Identical by state)は発生起源が同一(Identical by descent)であることになる。

Infinite-sites model



Infinite-alleles modelでは、たとえば、次のような2つの変異をモデルに合致した変異とみなす。ATGC->AAGC, ATGC->AGGC。2つの変異は、それぞれ新規アレルを生んでいる。

Infinite-sites modelでは、塩基配列は非常に長いので、あるDNA部位には、1度しか変異が起きないという条件を加えている。したがって、ATGC->AAGC,ATGC->ATCCの2つは、それぞれ第2、第3塩基に変異が起きているのでInfinite-sites modelを満足しているが、Infinite-alleles modelを満足していた、ATGC->AAGC, ATGC->AGGC は、どちらも第2塩基に変異が起きているので、Infinite-sites modelを満足しない。Infinite-sites modelはInfinites-alleles modelを満たし、それよりも条件がきついモデルである。しかしながら、中立仮説において、頻用される。Infinite-sites modelでの多型箇所の相互関係と実測データのそれとを比較するのが、Mismatch distribution テストになる

遺伝的浮動(Drift)



集団中にの多様性の素である変異はたえず起きているが、そのうちの大多数は集団中に残ることなく消滅する。理由は、変異配列染色体が次世代集団にかならずしも引き継がれないためである。簡単のために、100染色体があって、次世代も人口増加はなく100染色体が引き継がれるとする。ある染色体のコピーが次世代で2つ以上認められることは当然ある。そうすると、それ以外の染色体のいずれかは、次世代に引き継がれるていないことになる。この点に着目すると、変異が集団中で占める割合は、変異発生時には、1/2N(diploid個体数Nに対して、染色体数は2N)。その後、時間経過とともに、増えたり減ったりし、消滅するか、逆に、その変異アレルが集団中のすべての染色体を占めるに至る。

ある染色体がどのくらいの確率で次世代に伝わらないか、というと、Wright-Fisherモデルのもとでは、約0.368である。したがって、新規に生じた変異の1/3は1世代も伝わることなく消滅することになる。その数式的説明は以下の通り

  • 今、diploid個体数Nとする。ある染色体は1/2Nの頻度であることになる。この着目染色体以外の染色体の頻度は1-1/2Nである。もし、次世代のdiploid個体数が同じくNであるとすると、2N染色体が出来上がることになるが、着目染色体以外のみでこの2N本が出来上がる確率は
    • (1-¥frac{1}{2N})^{2N}である。この関数は、N¥rightarrow ¥inftyにおいて収束し、その値は¥frac1e=0.368である
    • 掲載図は、N=1から33までのプロットで、Nが小さいうちから、収束値に近い値が得られることを示す。

関連エクセルはこちら

HomozygosityとHeterozygosity



クローン集団でなければ、集団中に多様性が存在する。Diploid個体の集団を取り扱う場合、多様性の指標のひとつとして、集団中の個体のうちホモの個体の占める割合(Homozygosity)とヘテロの個体の占める割合(Heterozygosity)とをよく用いる。

Homozygosity + Heterozygosity = 1 である。解析によりHomozygosityを用いる場合とHeterozygosityを用いる場合とがある。相互に表と裏の関係である。

クローン集団であれば、Homozygosity = 1 である

Homozygosity = 1 であっても、クローン集団とは限らない。2アレル存在して、第1アレルのホモと第2アレルのホモのみが存在する集団は、Homozygosity = 1 であるが、クローンではない。クローン集団とクローン集団の寄せ集めである。

2つのクローン集団が混じりあうとHomozygosityは1から下がって行く。

クローン混成集団のアレル頻度が変化しない、という条件のもとで、もっともよく混じりあった状態では、Hardy-Weinberg平衡になっている。

さらに、アレル頻度も変化する条件(遺伝的浮動など)とすると、すべてのアレルの頻度が同一になった上でHWEに達する。この状態が、もっとも平衡な状態である。

実際には、「混じりあい」の程度、新規変異の発生を含む遺伝的浮動の影響から、Homozygosityは1と平衡状態での期待値との間の値をとっている(定常状態)ものと考えられる。

平衡状態は集団の遺伝的モデルによって決まるので、観測データから得られるHomozygosityの値が、1と平衡状態Homozygosityの間のどのあたりに相当するかを検討することで、観測集団に集団の遺伝的モデルの変数が予測できたり、そのモデルへの当て嵌まりのよさを検討したりすることができる。

  • Homozygosity Heterozygosity のいろいろ
    • サンプルデータから計算する
      • サンプルデータから直接計算すると、その値は、サンプルのHomozygosity(または Heterozygosity 以下、同様)であり、また、母集団のHomozygosityの推定の助けとなる
      • 今、Diploidジェノタイプデータがサンプル数Nあって、そのうち、ホモ個体がHoだったら、このサンプルでは Homozygosity = ¥frac{Ho}{N} である
      • あるサンプルのHaplotypic data が得られているときには、そのHaplotype分布の集団が、HWE平衡に達しているとみなせば、その仮定のもとでは Homozygosity = ¥sum_{i}^{N_h}p_i^2
      • もしも、このサンプルのdiplotypeも得られていれば、Homozygosity = ¥frac{Ho}{N}Homozygosity = ¥sum_{i}^{N_h}p_i^2の両方が計算できて、それが似通っているか、あからさまに違うかを検討することが可能になる。Diplotypic dataもhaplotypic dataも実観測データであれば、HWEを仮定した点が乖離の理由として疑わしい。もしdiplotypic dataからhaplotype頻度を推定していたならば、haplotype頻度推定に乖離の理由が潜む可能性も出てくる。
    • 遺伝的モデルから見たHomozygosity Heterozygosity
      • 変異が起こり、人口増減の時間的経過のもと、遺伝的浮動の結果、変異は消長し、また、集団の混じりあいにも条件をつけるなどすると、Homozygosity Heterozygosityの平衡状態が定義できる。したがって、ある遺伝的モデルにおいて、変数を与えるとそのモデルの平衡状態でのHomozygosity Heterozygosityは遺伝的モデル変数によって与えられる。ホモ・ヘテロは「アレル」の保有の状態についての定義であるから、Homozygosity Heterozygosityに関するモデルとして登場するのは、Infinite-alleles modelである(以下、参照)
      • たとえばInfinite-alleles modelにおいてPoplation size 2N, Mutation rate ¥muとして 平衡状態(すべてのアレルの頻度が均一になった状態)ではHomozygosity = ¥frac{1}{4N¥mu +1}
      • Infinite-sites modelにおける平衡状態ではアレル頻度が均一になった状態を考えたが、実際には、変異の消長が継続している状態では、存在している多型のアレル頻度の分布は一様ではなく、絶えず変化している。しかしながら、ホモ個体率のみに着目すると、その値が一定になる状態が想定され、それを定常状態と考え、その状態でのHomozygosityを求めることが可能である。このあたりのアレルの種類数・その頻度のばらつき方に関するモデル推定値と実測値との関係について検討すると、遺伝子進化のneutralityについてのモデル適合度の評価が可能となる(Ewens-Watterson Testなど)