第5部 第22章 Mathematical models in populationgenetics Handbook of Statistical Genetics(5-22)
- 1座位、2アレルのモデル
- 2アレル:
- その第世代の頻度:
- 変異 Mutation
- の変異率:
- の変異率:
-
- 世代にてだったアレルは変異しなければ()そのまま、だったアレルは変異すれば()、となる
- であるから
- 特に、のとき
- ランダムな遺伝的浮動 Random genetic drift
- 集団のサイズが有限であるとき、アレル頻度は離散的な値をとり、アレルの固定が起きうる。浮動はこのように集団サイズが有限であるときの現象である
- ,
- 第世代にのアレルが全染色体のうち、本だったときに、第世代にのアレルがである確率は、のアレル頻度を用いて、2項分布で表される
- 選択 Selection
- ジェノタイプに繁殖力・生存力の差があるとする。その差を適応 fitness と呼び、変数として持ち込む
- 2アレルのディプロイド生物は3ディプロタイプを持つので、そのfitness をとする
- アレル頻度をと書くこととする
- 次世代のディプロタイプ別頻度は、HWEを仮定すると
- の比率になる
- 3ディプロタイプの頻度の総和が1となるように補正をすると、3ディプロタイプの頻度は
- になる
- ただし、であり、これは、fitnessの平均である
- になる
- このときの次世代のアレル頻度は
- fitness のパターン
- Wright-Fisherモデル
- 拡散モデルで近似 Diffusion approximation
- 拡散過程は、連続時間の確率的現象であり、時間変化は現在の状態にのみ依存する(マルコフ過程)である
- 拡散過程を定める2つの量
- 無限小時間における変化量の期待値:浮動と呼ぶ
- 無限小時間における変化量の分散の期待値:拡散と呼ぶ
- 時刻に始まる拡散過程をと表すこととする
- なる状態から、単位時間の間の変化量は
-
- この期待値の極限は
- この分散の極限は
-
- ただし、
- これは、は微小単位時間においても無視し得るので上記のが満足される
- ただし、
-
- この期待値の極限は
- 集団サイズの有限を考慮
- 離散的に値をとるときの関係式
-
- 連続的に値をとらせるために
- (をと等しいかそれより小さい整数とする)とする
- この結果、時間の単位をとすることとなり。を無限小にすることが必要であるが、を無限大にする必要が出る。それは真実ではないが、なる変異率を表す変数を取り込むことで
- が得られる。
- 2項分布の分散がであることから
- が得られる
- 離散的に値をとるときの関係式
-
- Fixation
- Fixationまでの時間は、ただしは時刻tにおいて、となるまでの時間、と表せて(拡散方程式の階の形)、これは
- を満足し
- となる
- Kolmogorov forward equation/Fokker-Planck equation
- を時刻0のときに頻度がpであった場合に、時刻tに頻度がxである条件付き確率を定める関数とすると、
-
- drift, diffusionの係数が時間の関数でないとき、とtをのぞくことができ、また、時間に依存しない定常状態にあるとすると
- ハプロイドの場合は、fitnessを持ち込んだ後、少し変形が必要だが、その場合
- ,
- ,Kは正規化項
- のときは、対称性で、変異率の多寡によって、多型が存在するかしないかの方向が、に関する確率密度曲線の凹凸を決める
- のときは、多くなりやすいアレルがあるので、そちらに偏った確率密度曲線が得られる
- drift, diffusionの係数が時間の関数でないとき、とtをのぞくことができ、また、時間に依存しない定常状態にあるとすると
- Fixationまでの時間は、ただしは時刻tにおいて、となるまでの時間、と表せて(拡散方程式の階の形)、これは
- 2アレル:
- Infinite allele model
- 変異が必ず新規のアレルを生じるとするモデル。アレル数は無限にありえる
- 同一のアレルは、Identical by descentであるといえる
- 今、世代において、2つの配偶子がの確率でIBDであるとしたときに、世代でのそれは
- アレルは何種類存在するか。Ewens's sampling formula
- サンプル数がのとき、存在するアレルの種類数の最小値は1、最大値は
- 今、サンプル数がであるようなアレルが種類あるとすると、
- 存在するアレルの種類数は、
- 今、のようなアレルのようなベクトルを考えると、これは、存在するアレルの高頻度・低頻度に関する情報を与えることとなる。このようなベクトルに対して、を確率とすると
- になるという。ただし、,
- この分布によれば、少数の高頻度アレルが存在し、多くの低頻度アレルが存在する、という場合が高確率であることがわかる
- また、存在するアレルの数の期待値であると言い、が大きいとき、この値はであり、その分散もであると言う。
- (期待値と分散とが一致する分布には、ポアッソン分布があるが、それ???)
- になるという。ただし、,
- その他のモデル
- 配偶子ペアで選択の要素を加えて、変異を起こさせる前向きモデル
- 多座位からなる遺伝子に低頻度で変異を入れることで、結果として、すべての発生アレルは新規であるとするモデル
- 選択にアレル頻度が影響するモデル
- 世代にオーバーラップを入れるモデル
- Coalescent theory
- 遺伝子は時間をさかのぼるに連れ、同祖にまとめられ、最終的にただ1つの遺伝子に行き着くとするモデル
- 総サンプル数がNで固定しているとし、ある時点でj種類の遺伝子であったときに、1世代前にj種類である確率は、j種類の遺伝子の共通祖先遺伝子が存在しない確率であるから、
- で表される。第1の遺伝子の1世代前の親を選ぶのは制約がないが、第2の遺伝子は、第1の遺伝子の親を選べない、第3の遺伝子は、第1の遺伝子の親と第2の遺伝子の親を選べない・・・・
- これにより、遺伝子数が、j-1からjになるまでの時間を、サンプルサイズNを単位として表すと
-
- 遺伝子数が多くなるとCoalescentする間隔が短くなるが、その係数はとして、指数分布する
- その期待値は、指数分布の期待値から。分散は
- 遺伝子数が多くなるとCoalescentする間隔が短くなるが、その係数はとして、指数分布する
-
- Most recent common ancestor(MRCA)に収束するまでの時間は
- Ancestral selection graph
- Coalescentでは、生じたアレルが消えることはないが、淘汰されるアレルがあれば、一度グラフに生じたアレルが消失しなくてはならない。その場合には、該当する直線が吸収される→グラフにサイクルが生じる。これを、coalescing event に対し、branching event と呼ぶ
- Coalescing : at rate
- Branching : at rate
- Coalescentでは、生じたアレルが消えることはないが、淘汰されるアレルがあれば、一度グラフに生じたアレルが消失しなくてはならない。その場合には、該当する直線が吸収される→グラフにサイクルが生じる。これを、coalescing event に対し、branching event と呼ぶ
- その他のこと
- 集団のサイズを一定でなくすること
- 選択の痕跡を探すこと
- 総サンプル数がNで固定しているとし、ある時点でj種類の遺伝子であったときに、1世代前にj種類である確率は、j種類の遺伝子の共通祖先遺伝子が存在しない確率であるから、
*1:1-\frac{1}{n^2})-2(1-\frac{1}{n}