配偶子のリスクの分散の大きさ

  • たくさんのリスク座位がある(すべての多型は機能差を持つ。そしてその機能差はリスクの軸に成分を持つ。ただし、ほとんどすべての座位はその成分が無視できるくらい小さいとする
    • 各座位のアレルのリスクR=(RX,Rx)=\{r_i=(rX_i,rx_i)\}A=\{a_i\};i=1,2,...,N(ただしa_iは正負いずれの値もとるものとする)と片方のアレルの頻度X(2アレル座位とする)P=\{p_i\}とで次のように表すものとする
      • rX_i=a_i \times (1-p_i),rx_i=a_i \times (-p_i)
    • このとき、各座位のハプロイド集団でのリスクの平均は、mean(r_i)= p_i rX_i+(1-p_i)rx_i=a_i(p_i(1-p_i)+(1-p_i)(-p_i))
      • mean(r_i)=0
    • その分散はvar(r_i)=rX_i^2+(1-p_i)rx_i^2=a_i^2(p_i(1-p_i)^2+(1-p_i)(-p_i)^2)
      • var(r_i)=a_i^2p_i(1-p_i)
      • 座位数が大きいとき、正規分布を仮定しても問題ないだろう
    • 全座位のがリスクに独立であると仮定すると、このハプロイド集団における、全座位によるリスクの分布は、平均がmean(R)=\sum_{i=1}^N mean(r_i)=0、分散がvar(R)=\sum_{i=1}^N var(r_i)=\sum_{i=1}^{N} a_i^2p_i(1-p_i)
      • 座位数が大きいとき、正規分布を仮定しても問題ないだろう
    • ディプロイドのリスク分布を考える
      • 各座位のディプロタイプ頻度は、p_i^2+p_i(1-p_i)f_i,2p_i(1-p_i)(1-f_i),(1-p_i)^2+p_i(1-p_i)f_iと、アレル頻度と、HWEからの乖離係数f_iとで表せる
      • ディプロタイプのリスクはDominance効果を考えなくてよいとすれば、2a_i(1-p_i),a_i(1-2p_i),a_i(-2p_i)と表せる
      • 従って、座位ごとのリスクの平均はmean(r_i,r_i)=a_i(2(1-p_i)(p_i^2+p_i(1-p_i)f_i+(1-2p_i)2p_i(1-p_i)(1-f_i)+(-2p_i)((1-p_i)^2+p_i(1-p_i)f_i)
        • mean(r_i,r_i)=0
      • その分散は[tex:var(r_i,r_i)=a_i^2*1^2(p_i^2+p_i(1-p_i)f_i+(1-2p_i)^2 2p_i(1-p_i)(1-f_i)+(-2p_i)^2((1-p_i)^2+p_i(1-p_i)f_i)]
        • var(r_i,r_i)=a_i^2 2p_i(1-p_i)(1+f_i)
    • 配偶子のリスクの平均と分散を考える
      • 配偶子を作る個体がその親からそれぞれ、F=\{r_{f1},r_{f2},...\},M=\{r_{m1},r_{m2},...\}なるリスクを受け取り、各座位について、全くランダムに組み替えを起こして、配偶子を作るものと仮定する
      • 平均がmean(R)=\sum_{i=1}^N mean(r_i)=0、分散がvar(R)=\sum_{i=1}^N var(r_i)=\sum_{i=1}^{N} a_i^2p_i(1-p_i)のハプロイドリスク分布のハプロイドをペア(H_1,H_2(祖父ハプロイドと祖母ハプロイドとでも呼ぶこととする))で所有する
      • このペアからアレルをシャッフルして配偶子が作られる
      • 次のように考える
      • H_1,H_2とが同一のアレルを持つ座位では、この個体が作るすべての配偶子は同一のアレルを持ち、それらが異なるアレルを持つ座位では、この個体が作るすべての配偶子は、0.5の確率で、2アレルのどちらか片方を持つ
        • 平均は、確定的に決まる座位と50:50で確率的に決まる座位とに分けて式で書けば次のようになる
          • mean(R(gamate))=\sum_{sites with same alleles} 1\times (rX/rx) +\sum_{sites with different alleles} (0.5 \times rX_i+0.5\times rx_i)
      • 祖父ハプロイドのどのアレルも祖母ハプロイドのどのアレルも、0.5の確率で配偶子に渡されるから、その平均はmean(gamate(r_i))=(risk(H_1)+risk(H_2))/2 と考えて平均を算出してもよい
        • 分散は、H_1,H_2とが同一のアレルを持つ座位は0、それ以外の座位は
          • 0.5\times rX_i^2+0.5 \times rx_i^2=0.5\times (a_i^2(1- p_i)^2+(-a_i p_i)^2)
        • 書き直して
          • var(R(gamate))=\sum_{sites with different alleles} a_i^2\frac{1}{2}(1-2p_i(1-p_i))
        • ここで仮に、個人のリスクの値によらず、ホモ座位率に違いがないとし、
          • var(R(gamate))=T(hetero)\times (a_i^2 \sum_{i=1}^N \frac{1}{2} (1-2p_i(1-p_i)))T(hetero)なるヘテロサイトの比率を使って表すことが出来て
        • さらに、仮定として、a_iの値の大小もホモ座位率とアレル頻度とに関係がないとすると
          • var(R(gamate))=T(hetero)\frac{1}{2}(\sum a_i^2)(1-2\sum_{i=1}^N  p_i(1-p_i))
          • var(R(gamate))=T(hetero)(\frac{1}{2}(\sum a_i^2) (1-2\frac{var(R)}{\sum a_i^2}))
      • T(hetero)はアレル頻度分布(Pr(p))とHWEからの逸脱係数 fの分布(Pr(f))が知られているときには、推定することができ、アレル頻度が0-1の均一分布(Pr(p)=1であり、HWE(Pr(f=0)=1である場合には、T(hetero)=\frac{1}{3}である
        • \iint 2p(1-p)Pr(p)(1-f)Pr(f) dp df
          • pとfとが独立なら\int 2p(1-p)\times 1 dp \times \int (1-f)Pr(f) df
          • 2(\int p Pr(p)dp -\int p^2 Pr(p) dp) \times (1-mean(f))
          • 2(mean(p) - (var(p)+mean(p)^2)) \times (1-mean(f))
          • 2(mean(p)-mean(p)^2-var(p) ) \times(1-mean(f))
            • Pr(p)が均一のとき、mean(p)=0.5,var(p)=\frac{1}{12}であり、HWEのときmean(f)=0であるから、このようなとき、T(hetero)=\frac{1}{3}
        • 他方(1-2\frac{var(R)}{\sum a_i^2}の方は、
          • 1-2\frac{var(R)}{\sum a_i^2}=1-2\sum p_i(1-p_i)であるから
          • アレル頻度が均一であるとした場合
          • 1-2\times \frac{1}{3}=\frac{1}{3}
        • 従って、アレル頻度が均一で、HWEで、リスクマーカーとアレル頻度に関係がなく、ホモ接合体率が座位のリスクの強さとも関係がない(この最後の仮定が一番危うそう・・・)とき
          • \frac{1}{3}\frac{1}{3}\sum a_i^2=\frac{1}{9}\sum a_i^2なる関係があるようだ

*1:2(1-p_i