第4限 領域の連鎖不平衡の評価と連鎖不平衡ブロックの作成



あるマーカーとあるマーカーの間の連鎖不平衡の強さは、そのマーカー間におきた組み換えの多寡を反映している。組み換えは、マーカー間の距離と、その2マーカーが共存した時間とに影響を受ける。近接するマーカーよりも互いに遠距離にあるマーカー間の方が組み換えはおきやすくLD指標は小さくなるし、マーカーのうちの若い方が若い方(発生してから間のない)が、両マーカーともが古くから存在しているよりもLD指標は大きくなる。今、ある領域に複数のマーカーがあると、そのマーカーの数Nに対して、¥frac{N¥times(N-1)}{2}ペアがあり、そのそれぞれに連鎖不平衡係数と連鎖不平衡検定とを実施することができる。今、DNA配列上のある1点について、そこにどれくらい組み換えが起きたかは興味の対象である。それを知るには、その1点をまたいでいるSNPペア間のLDの情報がすべて役に立つ。これが、領域のLD解析の基礎である。¥frac{N¥times(N-1)}{2}をプロットしたのが、HaploviewのLD plotタブであり、そこには、LD係数・その色分け閾値などの描図オプションによりさまざまに描くことができる。また、その画面では右クリックにより、任意のSNPペアのLD関係に関する情報の表示も可能である。

    • 2次元のLDの分布から、連鎖不平衡が強く残っている領域と連鎖不平衡が残っていない領域に分けられるとすれば、強く残っている領域はLDマッピングにて関連マーカーが存在知る範囲に相当するから、2次元LDの情報を用いて、ブロックを区切る方法がいくつか示されている。既述のように、2次元LDの情報はマーカーの老若に左右され、また、マーカーがない部分については、情報が欠落しているという限界を知った上で、利用するべきである。
    • Haploviewでは3つのLDブロッキングの方法が選択できる。その内容についてはこちらの記事で。
    • LDブロックを利用せず、入力データ全体を一塊としてハプロタイプ解析などをするためには、いずれかのLDブロッキング方法を選び、そのブロック形成のために指定する閾値として、もっともLDブロックが広くなる値を与えればよい。

第3限 SNP-SNPペア間の連鎖不平衡の評価



  • 2マーカー間の連鎖不平衡関係を評価するとは、2マーカーが作るハプロタイプ(SNP2個の場合は4ハプロタイプ)の頻度の分布をもとに、「連鎖不平衡の程度」を「量」で表す方法と、「連鎖不平衡」の存在を「質(検定)」で表す方法とに分かれる
  • いずれも、ハプロタイプ頻度が必要である。2マーカーのハプロタイプフェージングは簡単であるので、もっとも安定しているEMアルゴリズムによるハプロタイプ推定頻度を用いるのが通常である。
  • Haploviewでは、LDplotタブで2次元LDプロットを表示させた上で、メニューバーのFileから、Export current tab to textを選ぶと次のようなテキストファイルが得られる

L1 L2 D' LOD r^2 CIlow CIhi Dist T-int
1 2 1.0 0.41 0.027 0.07 0.98 4921 0.41

    • L1 L2はマーカー名、D'とr^2はLDの程度の指標(後述)、LODは連鎖不平衡がない(連鎖平衡状態である)との帰無仮説に対する質的評価指標である、LOD。また、連鎖不平衡の有無は、検定の対象となることからわかるとおり、連鎖不平衡係数にも「信頼区間」がある。CIlow CIhiはD'の95%信頼区間の下限値と上限値である。D'の信頼区間が示され、r^2のそれが示されないのは、LD指標を用いてLDブロックを定義するGabriel's 法が、D'の95%信頼区間アルゴリズムに取り入れているからである。Distは2点間の距離。T-intはHapMapプロジェクトで用いるSNPペアに与える値(詳細未確認)
  • 連鎖不平衡の程度の量的指標
    • D'とr^2(r^2,¥delta^2とも)は、複数ある2SNP間の連鎖不平衡係数のうちの2つである。D'とr^2以外はほぼ使われていない。
    • どちらも、2SNPが完全連鎖にあって、2ハプロタイプしか存在しない場合には、1をとる。
    • ハプロタイプしか存在しない場合には、D'は1をとり、r^2は1より小さい値をとる。この違いは次のように考えるとわかりやすい
      • 今、2つのSNPのアレルをそれぞれ0,1で表すとする
      • あるとき、2SNPの作るハプロタイプとして00のみを有する集団と11のみを有する集団があって、それが混ざったとする。組み換えが起きるまでは、その混合集団には00と11しかなく、組み換えが起きて初めて01もしくは10のハプロタイプが発生する。このように考えると、00、11のみの状態が組み換えのない状態で、01が混じた段階は組み換えが起きた後の状態であるとみなせる。この立場で組み換えのない状態を1とし、組み換えの起きたあとの状態を1より小として表したのがr^2である
      • 他方、ある1つの集団を考え、はじめは00しかなかったところに、変異が起きて01ハプロタイプが生まれ、さらに変異が起きて11ハプロタイプが生じたとすると、00,01,11の3ハプロタイプがある段階というのは、いまだ、組み換えが起きていない状態である。この立場に立つと可能な4ハプロタイプのうち3ハプロタイプしか認められない段階は、無組み換えなので、連鎖不平衡係数として1を与えてもよい。この立場にあるのがD'である。4 gamete testもこの立場(4ハプロタイプがあって初めて、2マーカー間に組み換えがあったものとする)である。
    • D'とr^2とのもうひとつの大きな違いは、SNPを関連マーカーとしてとらえたときに、高いD'関係にある近傍SNPよりも、高いr^2関係にある近傍SNPの方が関連解析上の統計量(たとえばカイ自乗値など)の相関が高い、という事実がある。
    • 参考となる別記載はこちら
    • D'とr^2の違いを確認するエクセルファイルはこちら
    • より詳しい記載はこちら
    • D'の信頼区間
      • D'の95% 信頼区間(95%CI)を算出し、D'算出値、95%CIの上限値・下限値を用いる
        • D'の95%CIの算出方法については近似法(解説文書はこちら)もあるが、GabrielらはD'の正確確率分布とその5パーセンタイル・95パーセンタイルを算出している
        • "Confidence limits were determined by calculating the probability of the observed data for all possible values of D', from which an overall probability distribution was determined. The upper and lower bounds represent the 5% tails of the overall probability distribution.---Sience論文のSuppl.Methodsより"
    • LOD
  • 上述のD'は2アレル多型間で定義されたものだが、多アレル多型間に拡張したものが、Multiallelic D'である。Haploviewでは、ブロック間において、Multiallelic D'を算出し、ブロック間のそれをブロック内ハプロタイプ-隣接ブロック内ハプロタイプたすきがけ図とともに提示している。Multiallelic D'の指標としての特徴は、0-1の範囲をとり、組換え履歴との関係はD'のそれと同様(説明記事はこちら)

第7限 ケース・コントロール関連検定・単一SNPでの関連検定



  • ローカスの強さの指標とその検定-他のデータ解析・検定と同様に、「強さ」と「統計的有意差」からなる
  • 「強さ」も「統計的有意差」も算出する方法はある。問題は、何を比較したいか(何を比較しないか)を了解してから実行することである
  • 関連範囲の絞込みにおいては、ケース・コントロール2群につき、アレル本数を比較(アレル頻度比較)する。その上で、感受性のオリジンに迫ったら、ジェノタイプ別の「強さ」やそのパターンなどについて調べる。Haploviewは関連領域の絞込みのみを念頭においている。
  • ただし、関連範囲の絞込みにおいても、アレル本数の比較のみでは取りこぼす危険性については留意して実行すること。
  • ローカスの強さはオッズ比で評価し、その統計的有意差を分割表検定する
  • Haploviewでは、データ入力ウィンドウで"Do association test"を選ぶと、関連検定が行われる。アレル頻度比較の2x2分割表検定カイ自乗検定で行われ、カイ自乗値とそのP値が表示される。いきなり結果だけが表示されるので、こちらのエクセルで分割表検定について確認する。
  • オッズ比
    • 説明はこちら(日本大学医学部公衆衛生学教室EBHC研究班)
    • 比較の方法はいくつかある
      • アレル本数比較
        • ケース・コントロール2群 x 2アレルの観測染色体本数
      • ジェノタイプ比較
        • 着目ジェノタイプ((1a)感受性アレルのホモ、(1b)感受性アレルのヘテロ、(1c)感受性アレルのホモもしくはヘテロ)を1群とし、対照ジェノタイプ((2a)非感受性アレルのホモ、(2b)非感受性アレルのヘテロ、(2c)非感受性アレルのホモもしくはヘテロ)とした2ジェノタイプ x ケース・コントロール2群のジェノタイプ観測人数
        • (1a) x (2a), (1b) x (2a),(1c) x (2a)(優性遺伝形式),(1a) x (2c)(劣性遺伝形式)などが比較できる
      • 信頼区間については後述
  • 分割表検定
    • アレル頻度検定
      • 2x2分割表、自由度1のカイ自乗検定(2x2分割表の4つの数の期待値のすべてが5以上の場合)
      • Fisherの正確検定(分割表の4つの数の多寡によらない)
    • ジェノタイプ頻度検定
      • 2x3分割表、自由度2のカイ自乗検定(2x2分割表の6つの数がすべて5以上の場合)により、ケース・コントロール2群間の分布差があることが統計的に有意であるかどうかを確認し、それが認められたら、上述の比較パターン((1a) x (2a), (1b) x (2a),(1c) x (2a)(優性遺伝形式),(1a) x (2c)(劣性遺伝形式)など)の検定に進む
      • もしくは、2x3分割表において、ホモ→ヘテロ→逆ホモには順序があるとみなして、『順位のある群の分割表検定』を行うことも可能である
  • オッズ比の信頼区間と分割表検定
    • オッズ比の算出値は観測データから母集団のオッズ比を推定した値であり、母集団の真のオッズ比は、観測データから算出したオッズ比を含むある範囲にあると推定されたことになる。通常信頼区間としては95%上限・下限が示されるが、これは、母集団の真のオッズ比は95%の確率で上限-下限の範囲に収まると推定した、ということを意味する。言い換えると、5%の確率で上限より大きいか、下限より小さいと推定した、ということになる。以下で分割表検定について述べるが、それと信頼区間との関係は次の通り
      • 感受性アレルのオッズ比の95%信頼区間の下限が1.0であるということは、分割表検定でP=0.05が得られるということと同じである。99%信頼区間の信頼区間の下限が1.0であるということは、分割表検定でP=0.01が得られるということと同じである(ただし、信頼区間の算出時に近似が用いられ、カイ自乗検定自体も近似であるから誤差は出る)
      • 例を試すとすると、SNPデータの分割表検定エクセルファイルURL(こちら)にて、入力セル(水色)のケース11に900、ケース12に0、ケース22に100、コントロール11に872、コントロール12に0、コントロール22に128を入れると中段のχsq (11/12+22)=のp値が0.04883、下の方のOR(11/22)の下限値が1.00となる。入力セルの値を1ずつ動かすとp値と下限値が動く。また、ついでに、サンプル数とP値・信頼区間の関係も次のようにして確認すること。はじめに入力した値は、ケース・コントロールともに1000人ずつであった。上記の観測人数の比率(900 vs 100, 872 vs 128)を変えずにケース数・コントロール数を変える(たとえば10倍、0.1倍など)すると、P値・信頼区間ともに増減する。人数を増やした場合、95%信頼区間の下限値を1.0に近づけるためには、ORを1に近づけなければいけないことも確認。

第8限 ケース・コントロール関連検定・ブロックハプロタイプでの関連検定



  • ハプロタイプの関連検定は、haplo.statsなどもこのブログで紹介(記事はこちら)しているが、定番が(まだ)ない(ハプロタイプでの関連検定の手法のいくつかについての概説記事はこちら)。その主な理由は次の通り
    • 領域ごとにハプロタイプ種類(アレル)数が異なり、たいていの場合3以上である
      • 単独SNPの場合には、アレル数が2と固定されていたので、アレル頻度比較が2x2分割表と固定されており、ジェノタイプの種類数も3と固定されており、その全体に対する2x3分割表検定、その後の個別比較パターンとしての幾種類かの2x2分割表検定のみで事足りた。しかしながら、ハプロタイプの場合はアレル数が2以上であるから、アレル頻度比較についても2xn分割表となり、ジェノタイプについては、組み合わせが多くなりすぎる。また、複数のハプロタイプに共通する因子についても考慮するとなると、nハプロタイプのうちのm(1...n)のハプロタイプの組み合わせ数は、さらに多くなる。
      • 現在、定番といえるのは、nハプロタイプのそれぞれについて、当該ハプロタイプ 対 その他で分けて、ケース・コントロール2群について、2x2分割表検定を行う方法(Haploview)と2xn分割表検定を行うことであろう
      • Haploviewも採用しているnハプロタイプについてn個の検定(当該ハプロタイプ対その他)を行う方法は、「n個の検定」を行うことを前提としていることから、必然的に多点解析補正の対象となる

第9限 ケース・コントロール関連検定・多点解析補正



今、2つのSNP(SNP_A,SNP_B)があるとする。次の4つの場合を考える

  • (1)SNP_AとSNP_Bとは異なる染色体上にある(連鎖不平衡には(絶対に)ない、SNP_AのジェノタイプがわかってもSNP_Bのジェノタイプが何であるか、予想ができない)
  • (2)SNP_AとSNP_Bとは、同じ遺伝子上にあるが、連鎖不平衡関係にない(SNP_AのジェノタイプがわかってもSNP_Bのジェノタイプが何であるか、予想ができない)
  • (3)SNP_AとSNP_Bとは、同じ遺伝子上にあり、LD指標r^2=1で完全連鎖している(すべての検体でSNP_AのジェノタイプとSNP_Bのジェノタイプが同一である)
  • (4)SNP_AとSNP_Bとは、同じ遺伝子上にあり、ある程度の連鎖不平衡関係にある
  • (1)の場合
    • 偶然にSNP_Aでp<0.01となるようなカイ自乗値(単一検定のカイ(p=0.01))を得る確率は0.01である。
    • 同様に、偶然にSNP_Bでp<0.01となるようなカイ自乗値(単一検定のカイ(p=0.01))を得る確率は0.01である。
    • したがって、SNP_Aか、SNP_Bかで、偶然に単一検定のカイ(p=0.01)を得る確率は0.01+0.01=0.02である。したがって、このように相互に無関係の2SNPのそれぞれでカイ自乗値を計算したとき、その値が、単一検定のカイ(p=0.01)以上になる確率は0.02である。
    • これはすなわち、このように相互に無関係の2SNPで別個にカイ自乗値を算出したら、偶然のせいである確率が2倍になっているのだから、帰無仮説は0.01で棄却されるのではなく、0.01で棄却するべきである
    • この補正方法がBnferroniの補正である。独立したn個の検定においては、単一の検定に比べて、p値をn倍にする、というもので、補正の方法として最も保守的である
  • (2)の場合
    • この場合は、SNP_AとSNP_Bの存在位置が近くなっただけ(連鎖不平衡の可能性が高まっただけ)で、実際には、2つのSNPのカイ自乗値には、なんら、相関がないから、やはりBonferroni補正をする必要がある
  • (3)の場合
    • この場合は、もしこの2つのSNPが相互に完全連鎖であることがわかっていたら、SNP_Aだけアッセイしただろう。言い換えると、SNP_AとSNP_Bの両方をアッセイして両方で検定をすることと、SNP_Aだけをアッセイしそれだけで検定することには、差がないということである。したがって、SNP_AとSNP_Bとで同一のカイ自乗値が得られ、それに対する単一検定のp値が得られるが、このp値は本来、補正しなくてよいはずである。
  • (4)の場合
    • この場合は(2)と(4)の間である。したがって、SNP_A、SNP_Bのそれぞれで得られたカイ自乗値とそれに対する単一検定のp値が得られたとき、補正p値は元のp値の1倍から2倍の間にするのが妥当と考えられる。SNP_A−SNP_Bの連鎖不平衡の強さが弱ければ元のp値に近く、強ければ2倍に近くするのも妥当である。しかし、正確な数値はわからない。これが2SNPではなく、もっと多数のSNPになったときは、さらに、正確な補正項はわかりにくい。
  • Permutation test
    • 上述したように、相互に連鎖不平衡関係にある複数のSNPでそれぞれ検定統計量(カイ自乗値)を算出した場合、その統計量が示すp値は、単一SNPの場合のp値の1倍からSNP数倍に補正してやる必要がある。その補正項を計算する代わりに、補正p値を算出するのがPermutation testである
    • 具体的には次のようにする
      • 観測データについて、複数の統計量を算出する(n個のSNPについて、n個のアレル頻度比較のカイ自乗検定値を算出してもよいし、n個のSNPがつくるm種類のハプロタイプについて、m個のカイ自乗検定値を算出してもよい)
      • 今、ケース集団とコントロール集団の間に差がない、という帰無仮説を検定しているのであるから、得られたケース・コントロールサンプルを、ケース・コントロールの区別をせずに、ケース・コントロールに割付けしなおし、観測データから算出したのと同じ複数の統計量を算出する
      • 再割付・再算出を多数回(k回)繰り返す
      • 今、複数の統計量の中で『もっとも値の大きいもの』に着目すると、k個の数値が得られた。このk個の数値の分布は、「ケース・コントロール群間に差がないときに得られる値の確率分布」になっている。したがって、この分布において、観測データから得られた、『もっとも値の大きいもの』がどのくらいの位置にあるかが『真のp値』に相当する。
      • この方法の説明からもわかるとおり、k=100とすれば、得られる『真のp値』は0.01,0.02,...のいずれか(0.01刻み)であり、K=10000とすれば、0.0001,0.0002,...のように0.0001刻みとなる
      • Haploviewでは、複数SNPについてと複数ハプロタイプについて、permutation 補正した値を提示する

Haploviewを用いた連鎖不平衡マッピング実習



全9限

このシリーズでの取り扱い範囲

  • 個々のSNPジェノタイプデータの評価(HWE検定)(記事はこちら)
  • SNP-SNPペア間の連鎖不平衡の評価(記事はこちら)
  • 領域の連鎖不平衡の評価と連鎖不平衡ブロックの作成(記事はこちら)
  • 連鎖不平衡ブロック内ハプロタイプの推定(記事はこちら)
  • タグSNPの選定(記事はこちら)
  • ケース・コントロール関連検定
    • 単一SNPでの関連検定(記事はこちら)
    • ブロックハプロタイプでの関連検定(記事はこちら)
    • 多点解析補正(記事はこちら)
      • Bonferroni補正とPermutation補正
      • 領域中複数SNPの関連検定結果の多点解析補正
      • 複数ハプロタイプの関連検定結果の多点解析補正
  • 各解析の出典一覧はこちらで。

第1限 インストールと起動、ケース・コントロール入力ファイルの作成



  • Haploviewホームページ
  • Haploviewダウンロードサイト
    • Javaアプリケーションを動かすためにJREが入っていなければ、Java.comからダウンロード
    • その後、HaploviewをOSに合わせて、ダウンロードし、必要に応じて、自己解等式ファイルを実行してインストールする
  • サンプルデータの実行
    • サンプル入力ファイル("sample.ped","sample.info")の読み込み
      • Haploview.jarをダブルクリックすると、メインウィンドウと入力データタイプの選択ウィンドウが立ち上がる
        • Load genotypes (linkage format)ボタン
          • 個人のdiplotypeジェノタイプデータを入力する場合
          • 個人ジェノタイプを用いた遺伝解析は家系を用いた連鎖解析から始まっており、この入力データフォーマットは、既存の連鎖解析プログラム(の一部)の入力データフォーマットを踏襲している。個人−個人の家系上の関係を指定でき、親子関係上不整合のあるジェノタイプデータを検出したり、家系関係を考慮したハプロタイプフェージングも実装されている。本実習では、原則として血縁関係にないサンプルのデータのみを用いることとする
        • Load phased haplotypesボタン
          • 実験的にハプロタイプ化しているか、もしくは、ジェノタイプデータからなんらかの方法で推定したハプロタイプデータを入力する場合
        • Load HapMap dataボタン
          • HapMapデータ(個人のジェノタイプデータ、一部データは親子トリオ)を入力する場合
      • "sample.ped"は個人ジェノタイプであるので、Load genotypes (linkage format)を選ぶ
      • "sample.ped"ファイルと同ディレクトリ(フォルダ)にある"sample.info"ファイルが、デフォルトでSNP情報(SNPの名前と位置)ファイルとして選ばれるが、必要に応じて別の場所にあるファイルを指定してもよい
      • オプションは3つ
        • SNP-SNPペアにて連鎖不平衡係数を計算するが、一定距離より遠いSNP間では(計算しても無駄なので)計算しないことを指定するオプション(デフォルトが500kb)
        • 不明コール率が高い個人を解析に含めないオプション(デフォルトが50%)
        • ケース・コントロール関連解析を行うオプション(さらにその下部オプションとして、Family trioデータか(TDT関連解析か)、Case/Control dataか(ケース・コントロール関連解析か)を選択する
      • "sample.ped"はFamily trioデータなので、500kb、50%(デフォルト)を選び、Do association testを選択し、Family tio dataを選んで、OKボタンを実行すると、一通りの解析がなされ、ウィンドウが変わる。
  • 入力ファイルのフォーマットと作成(エクセルなどスプレッドシート式のアプリケーションからテキスト形式で指定のフォーマットに作成する)
    • "xxxx.ped"ファイル
      • 家系データを扱うために必要な、サンプル特定情報とサンプル-サンプル関係特定情報を記載するための6列と多型のジェノタイプのための列が多型箇所数あり、1個人1行になっている
      • 6+多型数の列はタブ区切り
      • 家系データを扱うために必要な項目
        • 家系ID(非家系データの場合は、各サンプルが独立した家系であるとすればよい)
        • 家系内サンプルID(非家系データの場合、各家系内にサンプルは1つであるとして全サンプルで同一値を与えてもよし、家系IDと同一のIDを記載してもよい)
        • 父親の家系内サンプルID(非家系データの場合、0(父親不明)を記すこと)
        • 母親の家系内サンプルID(非家系データの場合、0(母親不明)を記すこと)
        • 性別(連鎖解析が性染色体上遺伝子の解析をすることを考えれば、連鎖解析用フォーマットとして必須である)(1=MALE, 2=FEMALE)
        • 疾患罹患状態(0=UNKNOWN, 1=UNAFFECTED, 2=AFFECTED)
          • この定義で明らかなように、量的形質には対応していない
      • 多型のジェノタイプ
        • アレルを1=A, 2=C, 3=G, 4=T, 0=不明で表し、2アレルの間に半角スペースを入れる
    • "xxx.info"ファイル
      • 多型IDとその物理的位置(塩基番号)の2カラム
      • "xxx.ped"ファイルの多型情報の列の並びと、"xxx.info"ファイルの行の並びとが対応する
    • ケース・コントロール入力ファイル(非家系)のサンプル
    • "case-cont.ped"(ケース4人、コントロール3人)

Case1 Case1 0 0 1 2 1 1 1 2
Case2 Case2 0 0 2 2 1 2 2 2
Case3 Case3 0 0 2 2 1 1 1 1
Case4 Case4 0 0 1 2 1 2 2 2
Control1 Control1 0 0 2 1 1 1 1 2
Control2 Control2 0 0 1 1 1 1 2 2
Control3 Control3 0 0 2 1 2 2 1 1

    • "case-cont.info"(2SNP)

SNP1 345162
SNP2 353215

第2限 個々のSNPジェノタイプデータの評価



個々のSNPについて、ケース・コントロール別にジェノタイプ観測人数がカウントされ、その結果、homo,hetero,counter-homo,unknownの4コール x 2サンプル群 の8数が得られる。

  • ケース・コントロール関連解析を行う前提
    • 有効コール率・不明コール率の確認
    • ケース・コントロール別のHardy-Weinberg平衡検定結果の確認
  • 母集団のアレル頻度を適当に変え、また、疾患感受性多型のジェノタイプ別相対危険度を適当に変えた上で、ランダムサンプリングをシミュレートするエクセルファイルはこちら
  • コントロール(HWEの母集団からのランダムサンプリング)でのHWEの結果とケース(相対危険度の指定の具合によっては、ケース集団はHWEにない)でのHWEの結果とを比べること。ケース集団でHWEからずれるのは、homozygote-RR が heterozygote-RRの自乗からはずれている場合である。
  • この確認にあたっては、Haploviewを使ってもよいが、より簡便には、こちらを使用すること。
  • また、Hardy-Weinberg平衡とその検定についてはこちらこちらを参照せよ
  • ケース母集団においてはHWEから逸脱している可能性があるが、一般母集団においては原則HWEから逸脱していることはないような多型を解析対象としているはずであるから、もしコントロールサンプルにおいてHWEからの逸脱を認めたら、サンプリングしなおすなどの対処が必要である。もし、一般母集団においてHWEから逸脱しており、それがpopulation subdivisionのためであるなど、解析に組み込むことが必要な場合には、Admixtureマッピングstructure考慮の解析などをする必要がある
  • 検定方法
    • 従来から用いられている、カイ自乗検定と、Abecasisらによる、正確検定がある。
    • カイ自乗検定は、ジェノタイプ別観測数と観測アレル頻度からHWE仮定のもとでのジェノタイプ別観測期待数の差を自由度1で検定するものである。解説は、Pak Sham 著 Statistics in human genetics(記事はこちら)の39ページを参照。また、上記で示した、エクセルファイルはこの方法で出した値である。
    • Abecasisらの正確検定は、カイ自乗検定よりもp値が大きめで出る(HWEが棄却されにくい)方法である。簡単には、Heterozygosityが期待値以上の場合にはP=1、期待値よりも小さい場合にP<1となる。ヘテロ個体数が観測数以下になる場合を数え上げてP値として返す方法である。オリジナルのペーパーはこちら。ソースはこちらで、Rのもある(こちら)ので、確認が簡便である。『Hardy-Weinberg calculation code courtesy of Goncalo Abecasis and Jan Wigginton at the University of Michigan Center for Statistical Genetics 』とHaploviewホームページに記載があるので、Haploviewで表示されるのは、Abecasisらの正確検定の結果と思われるが、AbecasisらのホームページのRソースでの解析結果とHaploviewでの解析結果に不一致がある。どちらが(も)正しくないかの確認はまだ取れていない。少なくともカイ自乗検定法よりもP値が大きくでるのは、Abecasis'Rもhaploviewも同様のようである。
  • 不明データの扱い
    • 不明データはないにこしたことはないが、あるとした場合に、気をつけることはなにか
      • ランダムに発生した不明コールは、解析に中立な立場なので問題は小さい
      • 系統的に発生した不明コールは、結果の解釈を難しくする
        • 検体によって不明コールの多寡がある。
          • その理由が、サンプリング・検体調整・アッセイ条件・コールシステムなどを通じて、その他の条件と相関がある場合には、さらに解釈は困難になる。
        • ジェノタイプ・ハプロタイプによって不明コールの多寡がある。
          • アッセイ条件・周辺多型の影響などにより、特定のジェノタイプ・特定のハプロタイプの場合に不明コールが多く発生するなどの偏りの影響について留意する。

第5限 連鎖不平衡ブロック内ハプロタイプの推定



第6限 タグSNPの選定



タグSNPとは、ある領域にに多数の多型が存在し、それらすべてを解析する代わりに、その領域の単一SNP関連解析・ハプロタイプ関連解析を効率よく行うために選ばれるSNPのセットのことである。弁別したいハプロタイプのセットとタグ化による関連解析精度の劣化とが、タグSNPセット選択に影響する主要素である。「弁別したいハプロタイプ」としては、領域に存在する全ハプロタイプのうち、一定頻度以上のハプロタイプを指定することが多く、その他には、ある特定のハプロタイプについてはなんらかの事情で弁別対象として加える必要などが生じる。また、「その精度」というのは、次のようなことである。領域のLD関連解析上、類似度の高い多型は関連検定上も似通った統計量(カイ自乗値など)を伴うから、代用可能であるとして、代用可能な多型をタグセットに入れ、それ以外をはずすことである。方法としては大きく2つある。弁別したいハプロタイプを完全に弁別できるタグSNPセットを求める方法と、その厳密性を放棄し、近似解を持って、解とする方法である。完全解を求める方法は、すべてのハプロタイプを弁別できるタグ多型のセットであり、関連検定上、劣化はないが、完全解の1セットを求めるだけでも、その計算量は膨大となりえる。また、完全解のすべてを求める場合には、計算量が膨大となることは間違いない。したがって、多型数の多い領域については、完全解を求めず、近似解を求めることとなる。タグSNPの探索は組み合わせ問題である。組み合わせ問題に伴う計算量については、こちらの記事を参照。また、タグSNPセットは、同じ条件を満たす(弁別するべきハプロタイプセットも同一で、近似の程度も同じ)ものが複数得られることが通例であるが、これは、組み合わせ問題で一般的な事象である。組み合わせ問題と最適解については、こちら。特に複数の最適解(パネート最適解)についてはこちら