4 連鎖不平衡解析 駆け足で読むPak Shamの統計遺伝学



  • 4.1 アレル関連(Allelic association)の定義
    • ある多型のある1つのアレルと別の多型のある1つの多型とに与えられた関係である
    • ある染色体上のある遺伝子多型がn種類のアレルa1,a2,...,anを持ち、同じ染色体上の別の多型がm種類のアレルb1,b2,...,bmを持つとする。2多型の組み合わせアレル(ハプロタイプ)はa1-b1,a1-b2,...,a1-bm,a2-b1,...,an-bmとnxm通りある。今、それぞれの頻度が、P(a1),P(a2),...P(an). P(b1),P(b2),...,P(bm).P(a1-b1),P(a1-b2),...,P(an-bm)としたとき、この2アレルが独立である場合には、P(ai-bj)=P(ai)xP(bj)が成り立つ。今、P(ai)とP(bj)とP(ai-bj)について、P(ai-bj)>P(ai) x P(bj)のとき、aiとbjは正の関連があるといい、P(ai-bj)<P(ai) x P(bj)のとき、aiとbjは負の関連があるという。アレル関連は、nxm個定義される。
  • 4.2 アレル関連の減衰:連鎖不平衡
    • 組換えとアレル頻度の変化。ランダムメイティング集団の場合
    • 組換えがあるので、アレル関連があっても消失する
      • 第k世代における、アレル頻度をP(X)(k)とする
      • 組換え体の比率を¥thetaとすると
        • P(ai-bj)(k+1)=(1-¥theta) ¥times P(ai-bj)(k) + ¥theta ¥times P(ai)(k)¥times P(bj)(k)
        • P(ai-bj)もP(ai)もP(bj)もすべてkの関数になっているが、P(ai)とP(bj)はkの関数でないとすると
          • P(ai-bj)(k+1)=(1-¥theta) ¥times P(ai-bj)(k) + ¥theta ¥times P(ai)¥times P(bj)
        • 式変形して
          • P(ai-bj)(k+1)-P(ai)¥times P(bj)=(1-¥theta) ¥times (P(ai-bj)(k) - P(ai)¥times P(bj))
        • から
          • P(ai-bj)(k+1)-P(ai)¥times P(bj)=(1-¥theta)^k ¥times (P(ai-bj)(0) - P(ai)¥times P(bj))
      • この式から、P(ai-bj)の値は、¥thetaの関数として、P(ai)xP(bj)に収束することがわかる
  • 4.3 アレル関連の生成
    • 遺伝的浮動(Random genetic drift)、創始者効果(Founder effect)、変異(Mutation)、選択(Selection)、集団の混合(Population admixture)、階層化(Stratification)などによって、連鎖不平衡状態から逸脱する(アレル関連が発生する)
    • 遺伝的浮動:集団サイズに依存
      • 集団サイズが有限であるために発生する現象
      • 有限サイズでは、次世代に伝達されないアレル・ハプロタイプが生じる
      • 離散的な振る舞いによる
      • 集団のサイズ、および、組換えと変異が影響を及ぼす
    • 創始者効果:集d何サイズに依存
      • ある時点の少数集団でのアレル関連が後世代に反映する現象
      • 集団サイズが大きくなるときに、平衡状態への進行が遅いために発生する
      • ランダムメイティングが繰り返されることによって、平衡状態へ近づくが、集団サイズが大きくなる仮定では、上述の(1-¥theta)^kより遅くしか平衡状態へ近づかないために、人口増加が始まった時点(創始者の時点)のアレル関連の減衰の程度が弱くなることによる
    • 選択:集団サイズに依存しない
    • Admixtureと階層化
      • アレル関連の消失した多型同士でも、複数の集団でそれぞれ異なったアレル頻度における連鎖平衡に達している場合、そのような複数集団を1集団として観測すると、アレルには関連が認められる
  • 4.4 稠密マッピングの手段としての関連解析
    • 連鎖解析・連鎖不平衡解析(アレル関連)は、いずれも、真の変異・多型を見出す代わりに、その代用となるマーカー多型を見つける解析である。
    • 連鎖解析では、家系を用いることによって、世代数を限定している。世代数が限定されるので、組換え回数も限定される。組換え数が少ないので、真の変異・多型とマーカー多型との距離は長くてもよい。したがって、検体数が少なくても・マーカーがまばらでも、陽性マーカーが選ばれる。しかし、そのマーカーが代表している範囲は広い。
    • 他方、連鎖不平衡解析では、アレル関連は、集団の出来上がってきた歴史時間に相当する世代数を反映している。したがって、積み重なっている組換え数は多く、真の変異・多型とマーカー多型との距離は短くないとならない。解析範囲が同じであれば、連鎖解析よりも多くのマーカーが必要であることを意味するが、範囲を狭める力が強いとも言い換えられる。これが稠密マッピングでのアレル関連に基づく関連解析(連鎖不平衡解析)の意義である
  • 4.5 無作為集団サンプリングによる関連解析
    • 集団におけるアレル関連を調べるには、集団からの無作為集団サンプリングをする
    • 集団におけるあれる関連の基本は、2多型間のアレル関連を調べることである
    • その方法としてはExpectation maximization(EM)アルゴリズムがある
    • 常染色体上にある2多型。多型A(a1,a2,...,an),多型B(b1,b2,...,bm)のように、それぞれアレル数n,mとする
    • ハプロタイプはnxm種類になる
    • ジェノタイプはそれぞれ、¥frac{n(n+1)}{2}¥frac{m(m+1)}{2}あるので、2多型の複合ジェノタイプは¥frac{n(n+1)m(m+1)}{4}ある。それをg_{ijkl}で現すこととする。ただし、i,j ¥in ¥{a1,a2,...,an¥};k,l ¥in ¥{b1,b2,...,bm¥}とする
    • 集団のハプロタイプ頻度と、そこから無作為抽出サンプルのジェノタイプの頻度との関係は以下の通り
      • ジェノタイプは2多型ともホモの場合、片方だけホモの場合、両方ともホモでない(ヘテロ)の場合の3パターンに分ける
        • g_{iikk}:両方ホモの場合
          • P(g_{iikk})=P(h_{ik})^2
        • g_{iikl},g_{ijkk}:片方ホモの場合
          • P(g_{iikl})=2P(h_{ik})P(h_{il})
          • P(g_{ijkk})=2P(h_{ik})P(h_{jk})
        • g_{ijkl}:両方ヘテロの場合
          • P(g_{ijkl})=2(P(h_{ik})P(h_{jl})+P(h_{il})P(h_{jk}))
      • 抽出サンプル数Nのとき、ハプロタイプ頻度が与えられたときに、それぞれのジェノタイプの観測数がn_{ijkl}なる確率Pは以下の式になる
        • P=L=¥frac{N!}{¥prod_{all genotype}n_{ijkl}!}¥prod_{all genotype}P(g_{ijkl})^{n_{ijkl}}
        • 掛け算は面倒なので対数をとると
          • Ln(P)=Ln(L)=Ln(N!)-(¥sum_{all genotype}Ln(n_{ijkl}!))+¥sum_{all genotype}(n_{ijkl}Ln(P_{ijkl}))
      • 逆にジェノタイプ観測数が与えられたときに、集団のハプロタイプ頻度を変量として上式を捉えるとき、ハプロタイプ頻度に関する尤度(ゆうど)という
    • EMアルゴリズムによるハプロタイプ頻度推定
    • 連鎖不平衡検定
      • あるジェノタイプが観測されたときに、母集団で連鎖平衡が成立しているとする仮説を帰無仮説を、連鎖不平衡が存在するとした対立仮説との比較により棄却率で検定する
      • 帰無仮説における対数尤度L0と連鎖不平衡を仮定したときの最大対数尤度L1について、尤度比検定を行う
        • 連鎖平衡を仮定したときのハプロタイプ頻度は、個々の多型のアレル頻度から求めた連鎖平衡時のハプロタイプ頻度
        • 連鎖不平衡を仮定したときのハプロタイプ頻度は、最尤推定
        • 2(Ln(L1)-Ln(L2)が漸近的にカイ自乗分布になることから、この値に対応する自由度に相当するP値を得る
          • 帰無仮説は2多型のアレル頻度が変数なので、n-1 + m-1が変数の数。対立仮説はnxm組み合わせハプロタイプ頻度が変数なので、nxm-1が変数の数。自由度は両者の差
          • n=2, m=2のときは、帰無仮説の変数が2、対立仮説が3なので自由度1
      • このほかの仮定としては、次のものがある。集団にはランダムメイティングが仮定できず、すべての組み合わせジェノタイプの集団での頻度はハプロタイプ頻度によって決まらないとするものである。この場合には、各ジェノタイプの観測確率は、各ジェノタイプの比率に相当させると、それが、集団のジェノタイプ頻度の最尤推定量となるので、それをもとに対数尤度を計算して、他の2対数尤度と比較することが可能となる。このときの変数量(自由度)は、¥frac{n(n+1)m(m+1)}{4}-1である
    • EMによるハプロタイプ頻度推定と尤度比検定についてのエクセルはこちら
  • 4.6 ケース・コントロールサンプリングによる関連解析
    • 4.6.0 リスク表現
      • 2アレルローカスの3ジェノタイプ(11 12 22)を考える
        • 集団のケース比率をK、非ケース比率をQ=1-Kとおく
        • 2アレルの頻度を[tex:p_1,p_2=1-p_1とおき、Hardy-Weinberg平衡を仮定する
        • 3ジェノタイプのそれぞれの浸透率をf11 f12 f22とおく
        • ケースのジェノタイプ比率は
          • P(g11|A)=¥frac{p_1^2f11}{K}:ケース(Affected)であるときにジェノタイプがg11である確率
          • P(g12|A)=¥frac{2p_1p_2f12}{K}
          • P(g22|A)=¥frac{p_2^2f22}{K}
        • コントロール(Unaffected)のジェノタイプ比率は
          • P(g11|A)=¥frac{p_1^2(1-f11)}{Q}
          • P(g12|A)=¥frac{2p_1p_2(1-f12)}{Q}
          • P(g22|A)=¥frac{p_2^2(1-f22)}{Q}
      • このローカスとアレル関連のあるマーカー多型について考える
        • マーカー多型のアレル数nについて、2xnハプロタイプの頻度をh_{ij},i¥in ¥{1,2¥},j¥in ¥{1,2,...,n¥}とする
        • マーカージェノタイプをG_{j1,j2}とすれば
          • マーカー多型がホモのときとヘテロの時で式が分かれて、ケース・コントロール別にそれぞれ
            • P(G_{j1,j1}|A)=¥frac{f11h_{1j1}^2+f12(2h_{1j1}h_{2j1})+f22h_{2j1}^2}{K}
            • P(G_{j1,j2}|A)=¥frac{f11(2h_{1j1}h_{2j2})+f12(2h_{1j1}h_{2j2}+2h_{1j2}h_{2j1})+f22(2h_{2j1}h_{2j2})}{K}
            • P(G_{j1,j1}|U)=¥frac{(1-f11)h_{1j1}^2+(1-f12)(2h_{1j1}h_{2j1})+(1-f22)h_{2j1}^2}{Q}
            • P(G_{j1,j2}|U)=¥frac{(1-f11)(2h_{1j1}h_{2j2})+(1-f12)(2h_{1j1}h_{2j2}+2h_{1j2}h_{2j1})+(1-f22)(2h_{2j1}h_{2j2})}{Q}
    • 4.6.1 遺伝形式等のわかっている場合
      • 4.6.0 の式で、p1,p2(疾患変異のアレル頻度)とその遺伝形式(f11 f12 f22)が与えられるときには、上式を用いて、尤度関数が定義でき、それを元に最尤推定ハプロタイプ頻度を求めることができる。上式では観測マーカー数が1つだけであったが、複数にすることも可能である。
      • この際の検定は、帰無仮説(観測マーカー(複数)は相互に連鎖不平衡になく、疾患とも関係ない)、対立仮説1(マーカー(複数)は相互に連鎖不平衡にあるが、想定している疾患変異とは独立している)、対立仮説2(マーカー(複数)は相互に連鎖不平衡にあり、疾患と関連もしている)の3仮説間での尤度比検定となる
    • 4.6.2 複合遺伝性疾患など、遺伝形式に関する情報が不明の場合
      • 分割表検定を行う
      • ハプロタイプ頻度推定を伴う場合の分割表検定
        • 帰無仮説は、ケース群とコントロール群でハプロタイプ頻度分布が同一であることである。この仮定に基づいてハプロタイプ頻度を推定し、それが与える尤度を求める(変数量はハプロタイプ数-1)。一方、ケース群とコントロール群とでハプロタイプ頻度分布が同一でないという仮定が対立仮説であり、この場合には、ケース・コントロールそれぞれに変数がハプロタイプ数-1だけ与えられ、そのもとでの2群の最尤推定量とそれがもたらす最大尤度とが算出される。両仮説の対数尤度の差に基づく尤度比検定は自由度=ハプロタイプ数-1のカイ自乗検定として実行できる。これはハプロタイプ推定頻度から再作成した分割表検定と同じことである(分割表に対するPearsonのカイ自乗検定と分割表に対する尤度比検定との通常の違いは残存する)。
      • 多変量解析の側面
        • ケース・コントロール関連解析で、複数の遺伝マーカーを用いるとき、リスクをもたらす1単位を組み合わせジェノタイプにすることもできれば、組み合わせハプロタイプ(アレル)にすることもでき、また、個々の多型のジェノタイプに置くことも、個々の多型のアレルに置くことも可能である。その上で、個人がどのようなアレルの組み合わせ

で持つかによってアレル-アレル間相互作用を考慮したり、多型間にアレル関連という相互依存関係を考慮したりすることができる。

        • 1単位を小さくし、さまざまな相互作用・相互依存をパラメタ化することにより、尤度を上げることはできるが、それは自由度を上げることによって達成しているので、どのパラメタを組み込むところまでは、有意なパラメタ化でそれ以上は統計的に有意でない尤度の改善なのかを考慮する必要が生じる(AIC Akaike information criterionの利用を含む)
        • これは、さらに遺伝要因以外の因子(環境要因やサンプル情報(性別他))と複数遺伝マーカー情報を組み合わせた多変量解析のときにもついてくる問題である
        • 生物学的既知事項から妥当であると考えられるモデル(劣性・優性・geno-dose effectなど)のみに固定して変数量を限定するなど、場合に応じて、扱う方法に検討の余地がある
        • 本テキストの出版後には、特に懸念の大きい因子(階層化など)を組み込んだ解析方法などの提案は複数あり、その利用は検討に値する
    • 4.6.3 アレル数の多いローカスの場合
      • HLA領域など、アレル数が非常に多いローカスにおいては、分割表のセルごとの観測数が少ないために、その分割表全体についてカイ自乗分布近似が不適切になる
      • 対処法としては
        • アレルを何かしらの理由をもとにグループにわける
        • 1アレル対その他の2x2分割表を複数作る
          • 最小P値の補正は、Pcorr=1-(1-P)^r、ただしrはハプロタイプ数。Pが小さい範囲では、Pcorrはrpに近似できて、これはBonferroniの補正と同じことになる
          • Permutation testを行うこともできる
        • Pearson's Pを出し、それをPermutation test によって換算する
    • 4.6.4 階層化に伴う偽関連
      • 通常の検定は、サンプリングに伴うランダムなばらつきによる偽陽性についてその確率を示すが、ケースとコントロールのサンプルに遺伝的偏りが存在している場合の分は関知できない。それを避けるために、情報収集可能な情報によってケース・コントロールのマッチングして収集したり、収集後にケースとコントロールをサブグループにわけることもできるが、無考慮の要素による階層化は排除できない。多数のマーカーを用いて、階層化の有無を検定したり、逆に個々のサンプルのサブグループ化をすることによって、検定から階層化の要素を排除する方法もある。階層化を排除することが難しいとして、ケースとコントロールを集団としては行わず、ケースワイズにコントロールを設定するのが、次項で扱う、ケースにとっての遺伝的に近いコントロールを採用する方法である
  • 4.7 ケースとその親をコントロールにする関連解析(TDTを含む)
    • 4.7.1 Haplotype relative risk(HRR)とhaplotype-based HRR(HHRR)
      • 発端者として患者を、そしてその両親をサンプルとする
      • HRR
        • 発端者をケース、その両親の非伝達アレルを組み合わせて人工的に作成したジェノタイプをコントロールとする(結果としてケースとコントロールの人数が同数の2xジェノタイプ数の分割表ができる)
      • HHRR
        • HRRがジェノタイプでの比較であるのに対し、HHRRではケースと擬似コントロールとのアレル分布の差に着目する
        • 両親の染色体数を総数にして、アレル1とアレル2とで伝達・非伝達の染色体による2x2分割表を作成し、それについて、アレル1、アレル2の分割・非分割の比が疾患と関連がない場合の期待度数に対してΧ自乗検定する
        • この分割表では、各親がホモのときには伝達・非伝達に必ず1ずつの度数『げた』を与える。したがって、この2x2分割表に生じる比率の違いは『げた』の分だけ鈍る。この『げた』を排除したのが、次項のTransmission distortion (disequilibrium) testである
        • Pak Shamのテキストでは、次のような表が示されているが、HRRの2x3分割表を作った上でアレルの検定をすることで問題ない
          • それぞれの親が伝達したアレルと非伝達のアレルの4パターン(t_{11},t_{12},t_{21},t_{22}ごとに勘定して2x2分割表を作り、次に示すインデックスを算出する。このインデックスは、漸近的に自由度1のカイ自乗分布をとることから、検定できる
          • 指標 HHRR=¥frac{( (t_{11}+t_{12})-(t_{11}+t_{21}) )^2}{(t_{11}+t_{12})+(t_{11}+t_{21})} + ¥frac{( (t_{21}+t_{22})-(t_{12}+t_{22}) )^2}{(t_{21}+t_{22})+(t_{12}+t_{22})}
          • 式変形して、HHRR=¥frac{2N(t_{12}-t_{21})^2}{N^2-(t_{11}-t_{22})^2}、Nは総染色体数
      • HRR,HHRRのエクセルはこちら
    • 4.7.2 Transmission distortion (disequilibrium) test
      • 通常、分割表検定において、ケース・コントロールサンプル間に対応があるときには、マッチさせたケース・コントロール用の検定(McNemar検定)を行う。HRR,HHRRにおいても、ケースと擬似コントロールとの間には、対応があるので、対応を考慮した検定が適当である。
      • ホモの親は情報がないとして、ヘテロの親のみから検定する
      • McNemar検定をHHRRでのt_{ij}に適用した統計量がTDTで
        • ¥frac{(t_{12}-t_{21})^2}{(t_{12}+t{21})}
      • この統計量は、自由度1のカイ自乗分布に近似していることが知られる
      • なお、HHRRとTDTは同じデータを用いて、同じく自由度1のカイ自乗分布に近似されるにも関わらず、その値は、異なるし、あるときはHHRRの方が大きく、あるときは、TDTの方が大きいことに注意する
        • たとえば、t_{11}=t_{22}=0のとき、TDT=¥frac{HHRR}{2}であるし、t_{11}=t_{22}¥not = 0であって、大きいとき、TDTの方がHHRRよりも大きい
          • この不整合は、「伝達」という事象と「発病」という事象をケースに、「非伝達」という事象と「対応フェノタイプを観測せず」という状態をコントロールに割り振るという事情に由来する
      • 尤度比検定によるTransmission distortion (disequilibrium) test
        • 上記の記載は、Pearson 式の分割表検定であるが、尤度比検定として実施することもできる。こうすることで、パラメタを増やし、3ジェノタイプのそれぞれについて異なる相対危険度を設定し、尤度比検定を行うことが可能である
        • 統計量 TDT についての尤度比検定は
    • 4.7.3 Multi-allelicローカスのTransmission distortion test
      • 4.7.2 で示したHHRR、TDTの式を2アレル多型からnアレル多型に一般化する
      • それぞれ自由度n-1、¥frac{n(n-1)}{2}-1のカイ自乗分布に近似される
      • 一般化式
        • HHRR=¥sum_{i=1}^{n}¥frac{(t_{i.}-t_{.i})^2}{t_{i.}+t_{.i}}
        • TDT=¥sum_{i=1}^{n}¥sum_{j>1}^{n}¥frac{(t_{ij}-t_{ji})^2}{t_{ij}+t_{ji}}
          • 式変形してTDT=¥frac{1}{2}¥sum_{i=1}^{n}¥sum_{j=1}^{n}¥frac{(t_{ij}-t_{ji})^2}{t_{ij}+t_{ji}}
          • 自由度¥frac{n(n-1)}{2}が大きすぎると思えば、次のような方法もある
            • t_{ij}t_{ji}との間には、相対的な関係・表裏の関係があるとみなすことが妥当と考えられる場合は多い。したがって、t_{ij}についての考慮分と、t_{ji}についての考慮分を¥pm ¥beta_i - ¥beta_jとして捉えることにより、変数の数は¥beta_iの数(n)になり、自由度n-1となる。
            • もしも、自由度¥frac{n(n-1)}{2}-1と、n-1とのうち、自由度の大きいほう(すべての可能なパラメタを考慮する場合)の適合性について気になるならば、両仮説について尤度比検定することも可能である
      • 弧発例サンプルについてケースの親を確率的に推定し、それをもとに統計量TDTを算出する(単純なベイズ)ことについては、この論文
  • 4.8 家系データを用いた関連解析
    • 家系データについては、foundersについてそれらがバイアスのないサンプルと考えられるようなサンプリングがなされているとき、foundersが一般集団を反映しているものとみなして、通常の分割表検定を行うことも可能である。foundersのアレルの推定が非決定的な場合には、連鎖解析と同様の手法で、foundersのアレルを推定し、それに対して尤度比検定を行うことも可能である
  • 4.9 連鎖不平衡の評価と組換え率推定
    • Prematureな既述につき、ひとまず省略
  • 4.10 関連解析と連鎖解析の相互の位置づけ
    • 省略

//4 終了