4 連鎖不平衡解析 駆け足で読むPak Shamの統計遺伝学
- 4.1 アレル関連(Allelic association)の定義
- ある多型のある1つのアレルと別の多型のある1つの多型とに与えられた関係である
- ある染色体上のある遺伝子多型がn種類のアレルa1,a2,...,anを持ち、同じ染色体上の別の多型がm種類のアレルb1,b2,...,bmを持つとする。2多型の組み合わせアレル(ハプロタイプ)はa1-b1,a1-b2,...,a1-bm,a2-b1,...,an-bmとnxm通りある。今、それぞれの頻度が、P(a1),P(a2),...P(an). P(b1),P(b2),...,P(bm).P(a1-b1),P(a1-b2),...,P(an-bm)としたとき、この2アレルが独立である場合には、P(ai-bj)=P(ai)xP(bj)が成り立つ。今、P(ai)とP(bj)とP(ai-bj)について、P(ai-bj)>P(ai) x P(bj)のとき、aiとbjは正の関連があるといい、P(ai-bj)<P(ai) x P(bj)のとき、aiとbjは負の関連があるという。アレル関連は、nxm個定義される。
- 4.2 アレル関連の減衰:連鎖不平衡
- 組換えとアレル頻度の変化。ランダムメイティング集団の場合
- 組換えがあるので、アレル関連があっても消失する
- 第k世代における、アレル頻度をP(X)(k)とする
- 組換え体の比率をとすると
- P(ai-bj)もP(ai)もP(bj)もすべてkの関数になっているが、P(ai)とP(bj)はkの関数でないとすると
- 式変形して
- から
- P(ai-bj)もP(ai)もP(bj)もすべてkの関数になっているが、P(ai)とP(bj)はkの関数でないとすると
- この式から、P(ai-bj)の値は、の関数として、P(ai)xP(bj)に収束することがわかる
- 4.3 アレル関連の生成
- 遺伝的浮動(Random genetic drift)、創始者効果(Founder effect)、変異(Mutation)、選択(Selection)、集団の混合(Population admixture)、階層化(Stratification)などによって、連鎖不平衡状態から逸脱する(アレル関連が発生する)
- 遺伝的浮動:集団サイズに依存
- 集団サイズが有限であるために発生する現象
- 有限サイズでは、次世代に伝達されないアレル・ハプロタイプが生じる
- 離散的な振る舞いによる
- 集団のサイズ、および、組換えと変異が影響を及ぼす
- 創始者効果:集d何サイズに依存
- ある時点の少数集団でのアレル関連が後世代に反映する現象
- 集団サイズが大きくなるときに、平衡状態への進行が遅いために発生する
- ランダムメイティングが繰り返されることによって、平衡状態へ近づくが、集団サイズが大きくなる仮定では、上述のより遅くしか平衡状態へ近づかないために、人口増加が始まった時点(創始者の時点)のアレル関連の減衰の程度が弱くなることによる
- 選択:集団サイズに依存しない
- Admixtureと階層化
- アレル関連の消失した多型同士でも、複数の集団でそれぞれ異なったアレル頻度における連鎖平衡に達している場合、そのような複数集団を1集団として観測すると、アレルには関連が認められる
- 4.4 稠密マッピングの手段としての関連解析
- 連鎖解析・連鎖不平衡解析(アレル関連)は、いずれも、真の変異・多型を見出す代わりに、その代用となるマーカー多型を見つける解析である。
- 連鎖解析では、家系を用いることによって、世代数を限定している。世代数が限定されるので、組換え回数も限定される。組換え数が少ないので、真の変異・多型とマーカー多型との距離は長くてもよい。したがって、検体数が少なくても・マーカーがまばらでも、陽性マーカーが選ばれる。しかし、そのマーカーが代表している範囲は広い。
- 他方、連鎖不平衡解析では、アレル関連は、集団の出来上がってきた歴史時間に相当する世代数を反映している。したがって、積み重なっている組換え数は多く、真の変異・多型とマーカー多型との距離は短くないとならない。解析範囲が同じであれば、連鎖解析よりも多くのマーカーが必要であることを意味するが、範囲を狭める力が強いとも言い換えられる。これが稠密マッピングでのアレル関連に基づく関連解析(連鎖不平衡解析)の意義である
- 4.5 無作為集団サンプリングによる関連解析
- 集団におけるアレル関連を調べるには、集団からの無作為集団サンプリングをする
- 集団におけるあれる関連の基本は、2多型間のアレル関連を調べることである
- その方法としてはExpectation maximization(EM)アルゴリズムがある
- 常染色体上にある2多型。多型A(a1,a2,...,an),多型B(b1,b2,...,bm)のように、それぞれアレル数n,mとする
- ハプロタイプはnxm種類になる
- ジェノタイプはそれぞれ、、あるので、2多型の複合ジェノタイプはある。それをで現すこととする。ただし、とする
- 集団のハプロタイプ頻度と、そこから無作為抽出サンプルのジェノタイプの頻度との関係は以下の通り
- EMアルゴリズムによるハプロタイプ頻度推定
- 連鎖不平衡検定
- あるジェノタイプが観測されたときに、母集団で連鎖平衡が成立しているとする仮説を帰無仮説を、連鎖不平衡が存在するとした対立仮説との比較により棄却率で検定する
- 帰無仮説における対数尤度L0と連鎖不平衡を仮定したときの最大対数尤度L1について、尤度比検定を行う
- このほかの仮定としては、次のものがある。集団にはランダムメイティングが仮定できず、すべての組み合わせジェノタイプの集団での頻度はハプロタイプ頻度によって決まらないとするものである。この場合には、各ジェノタイプの観測確率は、各ジェノタイプの比率に相当させると、それが、集団のジェノタイプ頻度の最尤推定量となるので、それをもとに対数尤度を計算して、他の2対数尤度と比較することが可能となる。このときの変数量(自由度)は、である
- EMによるハプロタイプ頻度推定と尤度比検定についてのエクセルはこちら
- 4.6 ケース・コントロールサンプリングによる関連解析
- 4.6.0 リスク表現
- 2アレルローカスの3ジェノタイプ(11 12 22)を考える
- このローカスとアレル関連のあるマーカー多型について考える
- 2アレルローカスの3ジェノタイプ(11 12 22)を考える
- 4.6.1 遺伝形式等のわかっている場合
- 4.6.2 複合遺伝性疾患など、遺伝形式に関する情報が不明の場合
- 分割表検定を行う
- ハプロタイプ頻度推定を伴う場合の分割表検定
- 帰無仮説は、ケース群とコントロール群でハプロタイプ頻度分布が同一であることである。この仮定に基づいてハプロタイプ頻度を推定し、それが与える尤度を求める(変数量はハプロタイプ数-1)。一方、ケース群とコントロール群とでハプロタイプ頻度分布が同一でないという仮定が対立仮説であり、この場合には、ケース・コントロールそれぞれに変数がハプロタイプ数-1だけ与えられ、そのもとでの2群の最尤推定量とそれがもたらす最大尤度とが算出される。両仮説の対数尤度の差に基づく尤度比検定は自由度=ハプロタイプ数-1のカイ自乗検定として実行できる。これはハプロタイプ推定頻度から再作成した分割表検定と同じことである(分割表に対するPearsonのカイ自乗検定と分割表に対する尤度比検定との通常の違いは残存する)。
- 多変量解析の側面
- 4.6.0 リスク表現
で持つかによってアレル-アレル間相互作用を考慮したり、多型間にアレル関連という相互依存関係を考慮したりすることができる。
- 1単位を小さくし、さまざまな相互作用・相互依存をパラメタ化することにより、尤度を上げることはできるが、それは自由度を上げることによって達成しているので、どのパラメタを組み込むところまでは、有意なパラメタ化でそれ以上は統計的に有意でない尤度の改善なのかを考慮する必要が生じる(AIC Akaike information criterionの利用を含む)
- これは、さらに遺伝要因以外の因子(環境要因やサンプル情報(性別他))と複数遺伝マーカー情報を組み合わせた多変量解析のときにもついてくる問題である
- 生物学的既知事項から妥当であると考えられるモデル(劣性・優性・geno-dose effectなど)のみに固定して変数量を限定するなど、場合に応じて、扱う方法に検討の余地がある
- 本テキストの出版後には、特に懸念の大きい因子(階層化など)を組み込んだ解析方法などの提案は複数あり、その利用は検討に値する
- 4.6.3 アレル数の多いローカスの場合
- HLA領域など、アレル数が非常に多いローカスにおいては、分割表のセルごとの観測数が少ないために、その分割表全体についてカイ自乗分布近似が不適切になる
- 対処法としては
- アレルを何かしらの理由をもとにグループにわける
- 1アレル対その他の2x2分割表を複数作る
- 最小P値の補正は、、ただしrはハプロタイプ数。Pが小さい範囲では、Pcorrはrpに近似できて、これはBonferroniの補正と同じことになる
- Permutation testを行うこともできる
- Pearson's Pを出し、それをPermutation test によって換算する
- 4.6.4 階層化に伴う偽関連
- 通常の検定は、サンプリングに伴うランダムなばらつきによる偽陽性についてその確率を示すが、ケースとコントロールのサンプルに遺伝的偏りが存在している場合の分は関知できない。それを避けるために、情報収集可能な情報によってケース・コントロールのマッチングして収集したり、収集後にケースとコントロールをサブグループにわけることもできるが、無考慮の要素による階層化は排除できない。多数のマーカーを用いて、階層化の有無を検定したり、逆に個々のサンプルのサブグループ化をすることによって、検定から階層化の要素を排除する方法もある。階層化を排除することが難しいとして、ケースとコントロールを集団としては行わず、ケースワイズにコントロールを設定するのが、次項で扱う、ケースにとっての遺伝的に近いコントロールを採用する方法である
- 4.7 ケースとその親をコントロールにする関連解析(TDTを含む)
- 4.7.1 Haplotype relative risk(HRR)とhaplotype-based HRR(HHRR)
- 発端者として患者を、そしてその両親をサンプルとする
- HRR
- HHRR
- HRRがジェノタイプでの比較であるのに対し、HHRRではケースと擬似コントロールとのアレル分布の差に着目する
- 両親の染色体数を総数にして、アレル1とアレル2とで伝達・非伝達の染色体による2x2分割表を作成し、それについて、アレル1、アレル2の分割・非分割の比が疾患と関連がない場合の期待度数に対してΧ自乗検定する
- この分割表では、各親がホモのときには伝達・非伝達に必ず1ずつの度数『げた』を与える。したがって、この2x2分割表に生じる比率の違いは『げた』の分だけ鈍る。この『げた』を排除したのが、次項のTransmission distortion (disequilibrium) testである
- Pak Shamのテキストでは、次のような表が示されているが、HRRの2x3分割表を作った上でアレルの検定をすることで問題ない
- それぞれの親が伝達したアレルと非伝達のアレルの4パターン(ごとに勘定して2x2分割表を作り、次に示すインデックスを算出する。このインデックスは、漸近的に自由度1のカイ自乗分布をとることから、検定できる
- 指標
- 式変形して、、Nは総染色体数
- HRR,HHRRのエクセルはこちら
- 4.7.2 Transmission distortion (disequilibrium) test
- 通常、分割表検定において、ケース・コントロールサンプル間に対応があるときには、マッチさせたケース・コントロール用の検定(McNemar検定)を行う。HRR,HHRRにおいても、ケースと擬似コントロールとの間には、対応があるので、対応を考慮した検定が適当である。
- ホモの親は情報がないとして、ヘテロの親のみから検定する
- McNemar検定をHHRRでのに適用した統計量がTDTで
- この統計量は、自由度1のカイ自乗分布に近似していることが知られる
- なお、HHRRとTDTは同じデータを用いて、同じく自由度1のカイ自乗分布に近似されるにも関わらず、その値は、異なるし、あるときはHHRRの方が大きく、あるときは、TDTの方が大きいことに注意する
- たとえば、のとき、であるし、であって、大きいとき、TDTの方がHHRRよりも大きい
- この不整合は、「伝達」という事象と「発病」という事象をケースに、「非伝達」という事象と「対応フェノタイプを観測せず」という状態をコントロールに割り振るという事情に由来する
- たとえば、のとき、であるし、であって、大きいとき、TDTの方がHHRRよりも大きい
- 尤度比検定によるTransmission distortion (disequilibrium) test
- 上記の記載は、Pearson 式の分割表検定であるが、尤度比検定として実施することもできる。こうすることで、パラメタを増やし、3ジェノタイプのそれぞれについて異なる相対危険度を設定し、尤度比検定を行うことが可能である
- 統計量 TDT についての尤度比検定は
- 帰無仮説の対数尤度
- 対立仮説の対数尤度
- 4.7.3 Multi-allelicローカスのTransmission distortion test
- 4.7.2 で示したHHRR、TDTの式を2アレル多型からnアレル多型に一般化する
- それぞれ自由度n-1、のカイ自乗分布に近似される
- 一般化式
- 式変形して
- 自由度が大きすぎると思えば、次のような方法もある
- ととの間には、相対的な関係・表裏の関係があるとみなすことが妥当と考えられる場合は多い。したがって、についての考慮分と、についての考慮分をとして捉えることにより、変数の数はの数(n)になり、自由度n-1となる。
- もしも、自由度と、n-1とのうち、自由度の大きいほう(すべての可能なパラメタを考慮する場合)の適合性について気になるならば、両仮説について尤度比検定することも可能である
- 弧発例サンプルについてケースの親を確率的に推定し、それをもとに統計量TDTを算出する(単純なベイズ)ことについては、この論文。
- 4.7.1 Haplotype relative risk(HRR)とhaplotype-based HRR(HHRR)
- 4.8 家系データを用いた関連解析
- 家系データについては、foundersについてそれらがバイアスのないサンプルと考えられるようなサンプリングがなされているとき、foundersが一般集団を反映しているものとみなして、通常の分割表検定を行うことも可能である。foundersのアレルの推定が非決定的な場合には、連鎖解析と同様の手法で、foundersのアレルを推定し、それに対して尤度比検定を行うことも可能である
- 4.9 連鎖不平衡の評価と組換え率推定
- Prematureな既述につき、ひとまず省略
- 4.10 関連解析と連鎖解析の相互の位置づけ
- 省略
//4 終了