第5部 第22章 Mathematical models in populationgenetics Handbook of Statistical Genetics(5-22)

  • 1座位、2アレルのモデル
    • 2アレル:A_1,A_2
      • その第n世代の頻度:p(n),1-p(n)
    • 変異 Mutation
      • A_1 \to A_2の変異率:u
      • A_2 \to A_1の変異率:v
      • p(n+1)=(1-u)p(n)+v(1-p(n))=(1-u-v)p(n)+v
        • n世代にてA_1だったアレルは変異しなければ(1-u)そのまま、A_2だったアレルは変異すれば(v)、A_1となる
        • p(n+1)-\frac{v}{u+v}=(1-u-v)(p(n)-\frac{v}{u+v})であるから
        • p(n)-\frac{v}{u+v}=(1-u-v)^n(p(0)-\frac{v}{u+v})
        • p(n)=\frac{v}{u+v}+(p(0)-\frac{v}{u+v})(1-u-v)^n
        • 特に、u=vのとき
          • p(n)=\frac{1}{2}+(p(0)-\frac{1}{2})(1-2u)^n
        • \lim_{n\to \infty} p(n)=\hat{p}=\frac{v}{u+v}
    • ランダムな遺伝的浮動 Random genetic drift
      • 集団のサイズが有限であるとき、アレル頻度は離散的な値をとり、アレルの固定が起きうる。浮動はこのように集団サイズが有限であるときの現象である
      • P(Y(n+1)=j|Y(n)=i)=\left(2N\\j\right) p^j(1-p)^{2N-j},p=\frac{i}{2N}
        • n世代にA_1のアレルが全2N染色体のうち、i本だったときに、第n+1世代にA_1のアレルがjである確率は、A_1のアレル頻度p=\frac{i}{2N}を用いて、2項分布で表される
    • 選択 Selection
      • ジェノタイプに繁殖力・生存力の差があるとする。その差を適応 fitness と呼び、変数として持ち込む
      • 2アレルのディプロイド生物は3ディプロタイプを持つので、そのfitness をw_{11},w_{12},w_{22}とする
      • アレル頻度をp(n),q(n)=1-p(n)と書くこととする
      • 次世代のディプロタイプ別頻度は、HWEを仮定すると
        • p^2(n) w_{11},2p(n)q(n)w_{12},q^2(n)w_{22}の比率になる
        • 3ディプロタイプの頻度の総和が1となるように補正をすると、3ディプロタイプの頻度は
          • \frac{p^2(n) w_{11}}{\bar{w}},\frac{2p(n)q(n)w_{12}}{\bar{w}},\frac{q^2(n)w_{22}}{\bar{w}}になる
            • ただし、\bar{w}=p^2(n)w_{11}+2p(n)q(n)w_{12}+q^2(n)w_{22}であり、これは、fitnessの平均である
        • このときの次世代のアレル頻度は
          • p(n+1)=\frac{p^2(n)w_{11}+p(n)q(n)w_{12}}{\bar{w}}
          • q(n+1)=\frac{q^2(n)w_{22}+p(n)q(n)w_{12}}{\bar{w}}
      • fitness のパターン
        • w_{11} < w_{12} < w_{22}
          • いずれどちらかのアレルに固定する
        • w_{11},w_{22} < w_{12}:overdominace ヘテロであることが有利
          • 多型が存続する
        • w_{11},w_{22} > w_{12}:underdominance ヘテロであることが不利
          • どちらかのアレルに固定する
    • Wright-Fisherモデル
      • 世代にオーバーラップがなく、人口が一定であるとしたときに、ランダムな遺伝的浮動を仮定したモデルをWright-Fisherモデルと呼び、多くのモデルの基礎となっている
      • 変異(u=v)、浮動、適応を考慮する
      • 適応のみを考慮し、変異・浮動を考慮しないときのアレル頻度は
        • \phi_1(n)=\frac{p^2(n)w_{11}+p(n)(1-p(n))w_{12}}{\bar{w}(n)}
      • ここに変異を考慮すると
        • \psi_1(n)=\phi_1(n)(1-u)+(1-\phi_1(n))u
      • さらに、遺伝的浮動を考慮すると、頻度が第n世代のときに\frac{i}{2N}である状態から、第n+1世代のときに\frac{j}{2N}である状態に変わる確率は
        • \left(2N\\j\right)\psi_1^j(n)(1-\psi_1(n))^{2N-j}
    • 拡散モデルで近似 Diffusion approximation
      • 拡散過程は、連続時間の確率的現象であり、時間変化は現在の状態にのみ依存する(マルコフ過程)である
      • 拡散過程を定める2つの量
        • 無限小時間における変化量の期待値:浮動と呼ぶ
        • 無限小時間における変化量の分散の期待値:拡散と呼ぶ
      • 時刻0に始まる拡散過程をX(t):t\ge 0と表すこととする
      • X(t)=xなる状態から、単位時間hの間の変化量は
        • \Delta_hX(t)=X(t+h)-X(t)
          • この期待値の極限は
            • a(x,t)=\lim_{h\to 0}\frac{1}{h} E[\Delta_h X(t)|X(t)=x]
          • この分散の極限は
            • b(x,t)=\lim_{h\to 0}\frac{1}{h} E[(\Delta_hX(t))^2|X(t)=x]
              • ただし、var[\Delta_hX(t)|X(t)=x]=E[(\Delta_hX(t))^2|X(t)=x]-(E[\Delta_hX(t)|X(t)=x])^2)
                • これは、(a(x,t)h)^2は微小単位時間hにおいても無視し得るので上記のb(x,t)が満足される
        • 集団サイズの有限を考慮
          • 離散的に値をとるときの関係式
            • P(Y(n+1)=j|Y(n)=i)=\left(2N\\j\right)\psi_1^j(1-\psi_1)^{2N-j}
              • \psi_1=\frac{i}{2N}(1-u)+\frac{2N-i}{2N}u
          • 連続的に値をとらせるために
            • X_N(t)=\frac{Y(\lfloor 2Nt \rfloor )}{2N}(\lfloor 2Nt \rfloor2Ntと等しいかそれより小さい整数とする)とする
            • この結果、時間の単位をh=\frac{1}{2N}とすることとなり。hを無限小にすることが必要であるが、Nを無限大にする必要が出る。それは真実ではないが、\lim_{N\to \infty} 4Nu=\thetaなる変異率を表す変数\thetaを取り込むことで
          • a(x)=\lim_{h\to 0} \frac{1}{h}E[X_N(t+h)-X_N(t)|X_N(t)=x]=\frac{\that}{2}(1-2x)が得られる。
          • 2項分布の分散が2N\psi_1(1-\psi_1)であることから
            • b(x)=x(1-x)が得られる
    • Fixation
      • Fixationまでの時間はv(x)=E[min(T(0),T(1))|X(0)=x]、ただしT(y)は時刻tにおいて、X(t)=yとなるまでの時間、と表せて(拡散方程式の階の形)、これは
        • -1=a(x)\frac{dv}{dx}+\frac{1}{2}b(x)\frac{d^2v}{dx^2},v(0)=v(1)=0を満足し
        • v(x)=-2(x ln(x)+(1-x)ln(1-x)),0 \le x \le 1となる
      • Kolmogorov forward equation/Fokker-Planck equation
        • \chi(p,x;t)を時刻0のときに頻度がpであった場合に、時刻tに頻度がxである条件付き確率を定める関数とすると、
        • \frac{\partial \chi(p,x;t)}{\partial t}=\frac{1}{2}\frac{\partial^2}{\partial x^2}[b(x,t)\chi(p,x;t)]-\frac{\partial}{\partial x}[a(x,t)\chi(p,x;t)]
          • drift, diffusionの係数が時間の関数でないとき、a(x),b(x)とtをのぞくことができ、また、時間に依存しない定常状態\rho(x)にあるとすると
            • 0=\frac{1}{2}\frac{d^2}{dx^2}[b(x)\rho(x)]-\frac{d}{dx}[a(x)\rho(x)]
          • ハプロイドの場合は、fitnessを持ち込んだ後、少し変形が必要だが、その場合
          • \theta=2Nu,\sigma=2Ns
          • a(x)=-\frac{\sigma}{2}(1-x)+\frac{\theta}{2}(1-2x)
          • b(x)=x(1-x)
          • \rho(x)=Kx^{\theta-1}(1-x)^{\theta-1}e-{\sigma x},Kは正規化項
            • s=0のときは、対称性で、変異率の多寡によって、多型が存在するかしないかの方向が、xに関する確率密度曲線の凹凸を決める
            • s\ne 0のときは、多くなりやすいアレルがあるので、そちらに偏った確率密度曲線が得られる
  • Infinite allele model
    • 変異が必ず新規のアレルを生じるとするモデル。アレル数は無限にありえる
    • 同一のアレルは、Identical by descentであるといえる
    • 今、世代mにおいて、2つの配偶子がF(m)の確率でIBDであるとしたときに、世代m+1でのそれは
      • F(m+1)=(\frac{1}{2N}+(1-\frac{1}{2N})F(m))(1-u)^2
        • 自身から生じた「姉妹染色体」とのペアを作るとすると、どちらも変異していないときに、IBDなので、\frac{1}{2N}\times(1-u)^2
        • 自身以外から生じた染色体とペアを作るとすると、変異の前にIBDな確率はF(m)だったので、(1-\frac{1}{2N})F(m)である。この状態から、自身と非自身の相方との両方が変異しない確率は(1-\frac{1}{2N})F(m)(1-u)^2
        • 平衡状態ではF(m+1)=F(m)であるから、\hat{F}=\frac{(1-u)^2}{2N-(1-u)^2(2N-1)}。これは\hat{F}=\frac{1}{\theta+1}
    • アレルは何種類存在するか。Ewens's sampling formula
      • サンプル数がnのとき、存在するアレルの種類数の最小値は1、最大値はn
      • 今、サンプル数がiであるようなアレルがa_i種類あるとすると、n=\sum_{i=0}^n i\times a_i=n
      • 存在するアレルの種類数K_nは、K_n=\sum_{i=1}^n a_i
      • 今、(a_1,a_2,...,a_n)のようなアレルのようなベクトルを考えると、これは、存在するアレルの高頻度・低頻度に関する情報を与えることとなる。このようなベクトルに対して、P(a_1,a_2,...,a_n)を確率とすると
        • P(a_1,a_2,...,a_n)=\frac{n!}{\theta_{(n)}\prod_{j=1}^n(\frac{\theta}{j})^{a_j}\frac{1}{a_j!}になるという。ただし、\theta=4Nu,\theta_{(n)}=\theta(\theta+1)...(\theta+n-1)
          • この分布によれば、少数の高頻度アレルが存在し、多くの低頻度アレルが存在する、という場合が高確率であることがわかる
        • また、存在するアレルの数の期待値E(K_{n})=\sum_{j=1}^n \frac{\theta}{\theta+j-1}であると言い、nが大きいとき、この値は\theta ln(n)であり、その分散も\theta ln(n)であると言う。
          • (期待値と分散とが一致する分布には、ポアッソン分布があるが、それ???)
    • その他のモデル
      • 配偶子ペアで選択の要素を加えて、変異を起こさせる前向きモデル
      • 多座位からなる遺伝子に低頻度で変異を入れることで、結果として、すべての発生アレルは新規であるとするモデル
      • 選択にアレル頻度が影響するモデル
      • 世代にオーバーラップを入れるモデル
  • Coalescent theory
  • 遺伝子は時間をさかのぼるに連れ、同祖にまとめられ、最終的にただ1つの遺伝子に行き着くとするモデル
    • 総サンプル数がNで固定しているとし、ある時点でj種類の遺伝子であったときに、1世代前にj種類である確率は、j種類の遺伝子の共通祖先遺伝子が存在しない確率であるから、
      • \prod_{i=1}^j (1-\frac{i-1}{N})で表される。第1の遺伝子の1世代前の親を選ぶのは制約がないが、第2の遺伝子は、第1の遺伝子の親を選べない、第3の遺伝子は、第1の遺伝子の親と第2の遺伝子の親を選べない・・・・
      • \prod_{i=1}^j (1-\frac{i-1}{N})=(1-\frac{1}{N})(1-\frac{2}{N})...(1-\frac{j-1}{N})
      • =1-(\frac{1}{N}+\frac{2}{N}+...+\frac{j-1}{N})+O(\frac{1}{N^2})
      • =1-\frac{\left(j\\2\right)}{N}+O(\frac{1}{N^2})
      • これにより、遺伝子数が、j-1からjになるまでの時間T(j)を、サンプルサイズNを単位として表すと
        • P(T(j)>t)=(\prod_{i=0}^{j}(1-\frac{i-1}{N}))^{Nt}
          • \lim_{N\to \infty}P(T(j)>t)=e^{-\left(j\\2\right)t}
          • 遺伝子数が多くなるとCoalescentする間隔が短くなるが、その係数は-\left(j\\2\right)として、指数分布する
            • その期待値は、指数分布の期待値からE(T(j))=\frac{1}{\left(j\\2\right)}=\frac{2}{j(j-1)}。分散はV(T(j))=\frac{1}{(\left(j\\2\right))^2}=(\frac{2}{j(j-1)})^2
      • Most recent common ancestor(MRCA)に収束するまでの時間はT_{MRCA}(n)=T(n)+T(n-1)+...+T(2)
        • E(T_{MRCA}(n))=\sum_{j=2}^n \frac{2}{j(j-1)}=2\sum_{j=2}^n(\frac{1}{j-1}-\frac{1}{j}=2(1-\frac{1}{n})
          • \lim_{n \to \infty} E(T_{MRCA}(n))=2
          • var(T_{MRCA}(n))=\sum_{j=2}^n (\frac{2}{j(j-1)})^2
            • \frac{1}{j^2}+\frac{1}{(j-1)^2}=\frac{(j-1)^2+j^2}{j^2(j-1)^2}=\frac{2j(j-1)+1}{j^2(j-1)^2}なので
              • \frac{1}{j^2(j-1)^2}=\frac{1}{j^2}+\frac{1}{(j-1)^2}-\frac{2}{j(j-1)}
            • したがって、var(T_{MRCA}(n)=4\sum_{j=2}^n (\frac{1}{j^2}+\frac{1}{(j-1)^2}-\frac{2}{j(j-1)})
              • =4\times 2\sum_{j=1}^{n-1}(\frac{1}{j^2})+4\frac{1}{n^2}-4\frac{1}{1^2}-4\times 2(1-\frac{1}{2}
              • [tex:=8\sum_{j=1}^{n-1}(\frac{1}{j^2})-4*1]
              • =8\sum_[j=1}^{n-1}(\frac{1}{j^2})-4(1-\frac{1}{n}(3+\frac{1}{n})
            • \lim_{n\to \infty} var(T_{MRCA}(n))=8\frac{\pi^2}{6}-12\approx1.16
    • Ancestral selection graph
      • Coalescentでは、生じたアレルが消えることはないが、淘汰されるアレルがあれば、一度グラフに生じたアレルが消失しなくてはならない。その場合には、該当する直線が吸収される→グラフにサイクルが生じる。これを、coalescing event に対し、branching event と呼ぶ
        • Coalescing : j \to j-1 at rate (\left(j\\2\right)
        • Branching : j \to j+1 at rate \frac{\sigma}{2}j
    • その他のこと
      • 集団のサイズを一定でなくすること
      • 選択の痕跡を探すこと

*1:1-\frac{1}{n^2})-2(1-\frac{1}{n}