3 連鎖解析 駆け足で読むPak Shamの統計遺伝学



  • 3.1 連鎖とは
    • 異なる染色体上に複数のローカスが存在するとき、それぞれのローカスのアレルは、お互いに独立して伝達される
    • 他方、同一の染色体上に存在する複数のローカスのアレルの伝達は相互に独立ではない。同一染色体上の異なるローカスのアレルが非独立に伝達する現象を連鎖と言う。連鎖は、ローカス間の組み換え割合(recombination fraction) ¥thetaに依存してその程度が決まる
  • 3.2 交差と遺伝的距離
    • 組み換えは、ローカス間で交叉が起き、配偶子が持つアレルの組み合わせに変化が起きる場合に観測される現象である
    • 1回の配偶子の生成において、平均して1回の交叉が起きる距離を1モルガンと呼び、この距離は、DNA塩基配列の物理的距離におおまかに比例する。モルガンという単位は大きいので、センチモルガンという単位をよく用いる。1センチモルガンの距離にあるローカスの間には、1回の配偶子生成にあたって、0.01回の交叉がおきる。100回の配偶子生成にあたって、平均して1回の交叉が起きる
    • ヒト男性の全染色体の「のべ遺伝的距離」は26.5モルガンであり、ヒト女性のそれは、39モルガンである。これは、ヒト男性の精子が作られるときに、1精子の生成にあたって、平均26.5回の交叉が起こり、ヒト男性の卵子が作られるときに、1卵子の生成にあたって、平均39回の交叉が起こることを意味する
    • おおまかには、1 Mb(1,000,000 bp)が1センチモルガン(cM)に相当するとされる
  • 3.3 Map functions
    • 遺伝的距離と組み換え割合との関係の数式表現をMap function 遺伝的距離関数、という
    • 解説記事はこちら
  • 3.4 連鎖解析に用いる遺伝マーカー
    • RFLP,VNTR,microsatellite
    • マーカーの連鎖解析上の情報量という指標
      • Heterozygosity, H
        • 連鎖解析では親から子へ伝達されたアレルが特定できることが必要であり、そのためには、解析対象個人がヘテロ接合体であることが必要である。
          • H=1-¥sum_{i=1}^{n}p_i^2はへテロ個体の比率を表している
      • Polymorphism information content PIC
        • 両親がヘテロであってもかならずしも、子への伝達アレルが特定できないこともあるので、その点を考慮したのが、PICである。両親が同一なヘテロ接合体だったときに、子がホモになってしまって、伝達情報が取得できない分を差し引いて、次のように表される
          • PIC=1-¥sum_{i=1}^np_i^2-¥sum_{i=1}^{n-1}¥sum_{j=i+1}^n2p_i^2p_j^2
    • 3.5 3.6 3.7 phase-known と phase-unknown
      • 2ローカスが相互に連鎖しているかしていないかは、していない場合を帰無仮説として尤度比検定をすることによって検定可能である。また、帰無仮説の棄却確率を指標にして、連鎖の強さを定量化することもできる。
      • したがって、ローカスの伝達アレルがわかっていれば、単純な尤度計算と尤度比検定によって、遺伝的距離が求められる
      • ローカスの伝達アレルが完全にはわからないことも多い。その場合には、ベイズの定理を用いて、伝達パターンとしてとりうる場合のすべてについて確率を計算することができる。この伝達パターン確率で重み付けをした上で、ローカス間の遺伝的距離を定量するのが、phase-unknownな場合の遺伝的距離の算出になる
    • 3.8 多ローカスでの連鎖解析
      • 2点間の連鎖を解析するにあたって問題にならないことが、複数点ローカスにおける解析では問題となる。あい並ぶ3点のそれぞれが作るローカスペアは3通りある。それぞれのローカスペアについて遺伝的距離を推定してやることは可能だが、その結果は相互に整合性が必要である。DNA分子上で相互に近いローカス間距離は比較的短く、相互に遠いローカス間距離は比較的長い必要がある。それを考慮し、複数のローカスペアにおける遺伝的距離の推定結果に相互の整合性を守るという制約を入れた解析となっているのが、多ローカスでの連鎖解析である
      • ローカスペアについての遺伝的距離推定値をもとにローカスの物理的並び順を決めることもあれば、あらかじめ物理的配置順の特定されているローカスの情報を用いて、マッピングを行うこともある
      • また、あるローカス間に偶数回の交叉が起きる場合と奇数回の交叉が起きる場合とでは、組み換え体を生じるか否かに差がもたらされることへの留意が大きいのも、多ローカス連鎖解析マッピングのように、相互に遠隔なマーカーを用いて解析する場合の特徴である。
    • 3.9 遺伝形式モデル
      • 家系データからアレルの伝達パターンの推定はできるが、個人の形質と遺伝子型との関係は、伝達関係とは別個の生物現象であり、その関係も変数化される。その変数化された、『遺伝子型-形質』の関係が遺伝形式である
    • 3.10 家系データの連鎖解析の実際
    • 3.11 3.12 オプション
      • 上述の連鎖解析においては、アレルの伝達とアレル保有パターン(遺伝子型)以外の要素が形質に与える影響は均一であると仮定しているが、実際には、いくつかの典型的な因子が存在して、解析結果に影響を与えている。その1つは、浸透が不完全であり、かつ浸透率が一定でないことである。また、phenocopyの存在も影響をもたらす。発病年齢が異なることも、個人へ不適切な形質割り当てを起こす。また、性別など、あからさまな因子が形質発現に影響している場合も存在する。このように形質発現における不均一性をある程度考慮する必要がある。また、遺伝現象側にも不均一性がありえる。交叉の発生は男性での配偶子生成と女性での配偶子生成とで異なることが知られていることなどはこの1例である。
    • 3.13 Model misspecification
      • 連鎖解析においては、マーカー間の組み換え率、形質原因ローカスとの距離が主要な推定対象変数となっているが、それ以外にも結果としてアレル頻度や浸透率なども推定されている。これらの副次的な推定変数について、真実と異なった情報を与えるなどすることが、連鎖解析の主要推定結果に悪影響を与えることが懸念されたことがあり、この問題をmodel misspecification問題と言う。この問題は、発端者の選択とマーカーの選択が独立であれば大丈夫だということが示されている
    • 3.14 複合遺伝性疾患の連鎖解析
      • 大家系は得られないのが通例である。したがって、罹患同胞対など、小規模な家系を集める
      • 罹患者同士で共有されるアレルを探すことでマッピングを行う。共有アレルは、IBD identity-by-descentとIBS identity-by-stateという2つのタイプで表現される。疾患と連鎖しているマーカーはIBD帰無仮説よりも高くなっていることを用いて検出する
    • 3.15 LOD スコア
      • 連鎖解析においては、歴史的な背景から、尤度比検定に用いられる自然対数の代わりに常用対数が用いられる。LODscore ¥times log_e(10) = log_e (likelihood(H1)) - log_e (likelihood(H0))。ただし、log_e(10) ¥sim 2.3
      • 単純な解釈。LOD=3は、帰無仮説より対立仮説の方が10^3=1000倍ありやすいことを意味する
      • Multiple testingを染色体の数だけ行っていることを考慮に入れると、P=0.95に相当するLODは3.3であるとされる
      • ある与件において、第1種過誤率と第2種過誤率を考慮して、LOD>=3, LOD<=-2がそれぞれ、連鎖なしを棄却、連鎖ありを否定するレベルである、というのがオリジナルの提唱値
      • LODがPに直結しないという批判もあり、Monte CarloシミュレーションによるP値の算出もなされる
    • 3.16 連鎖解析のInformation content
      • ELOD EMLOD, Fisher's information,Entropy-based information content
    • 13.17 連鎖解析戦略