4 ジェノタイプデータ(のみ)から考えること〜Hardy-Weinberg平衡検定

  • Hardy-Weinberg平衡(HWE:Hardy Weinberg Equilibrium)
    • ある集団において、メイティングがランダムであるとき、ディプロタイプが持つ、アリルの組合せは、集団のアリル頻度によってのみ決まると考えられる。ジェノタイプの頻度分布とアリルの頻度分布との関係が、このようになっていることをHardy-Weinberg平衡と呼ぶ。
  • ジェノタイプ・フェノタイプ関連解析においては、Hardy-Weinberg平衡にある集団からのランダムなサンプルにおいて解析していることを前提とすると都合がよいことが多いので、観測ジェノタイプデータがHardy-Weinberg平衡にあるか、その仮定が不適切かを検定する。
  • Hardy-Weinberg平衡検定
    • 検定の対象は大きく分けて2つ
      • サンプルが採られた母集団がHWEにあるか(母集団のHWEを疑っている)
        • 帰無仮説が棄却された場合には、ジェノタイプ・フェノタイプ関連検定の結果について、母集団のHWEからのずれ(Hardy-Weinberg不平衡)の影響を考慮する必要があることを示す
      • サンプルが、HWEにある母集団からのランダムサンプルと言えるか(母集団にHWEを仮定している)
        • 帰無仮説が棄却された場合には、サンプリングバイアスがあることを意味し、ジェノタイプ・フェノタイプ関連検定の実施自体が無効である可能性を示唆する
      • なお、この区別は通常、意識して分けられることはなく、また、検定処理自体はどちらも同じである
  • 比較するもの
    • 観測ジェノタイプ頻度分布と、HWE仮説が成立しているときに期待されるジェノタイプ頻度分布
      • HWE仮説が成立しているときに期待されるジェノタイプ分布は、アリル頻度分布から計算される
  • 比較に必要な頻度分布は観測されるか観測データから推定する
    • サンプルのジェノタイプ頻度分布は観測されるので既知である
      • (あるジェノタイプの観測人数)÷(観測層人数)
    • 母集団のジェノタイプ頻度分布は、サンプルのデータから推定する
      • 推定頻度は(あるジェノタイプの観測人数)÷(観測層人数)
    • 母集団のアリル頻度分布は、サンプルのデータから推定する
      • ディプロタイプ的ジェノタイプのときには、観測アリル本数を数え上げることができる
        • ホモ個体はそのアリルを2本、ヘテロ個体はそれぞれのアリルを1本ずつ持っている
        • 観測サンプルにおける、アリル頻度(あるアリルの観測本数)÷(総観測本数)を母集団のアリル頻度の推定値とする
      • コピー和タイプジェノタイプのときは、観測アリル本数を数え上げることができない。
  • 検定の実際
    • 2種類の検定法が用いられる。
      • カイ自乗検定
      • 正確確率検定
    • HWEのカイ自乗検定
      • ジェノタイプ数の観測数と、推定アリル頻度からHWEを満足するときのジェノタイプ別観測数の期待値を算出する。1xジェノタイプ数の観測数の表と同じサイズの期待度数表とから、カイ自乗値を算出する
        • 各ジェノタイプの(観測度数-期待度数)^2/期待度数を全ジェノタイプについて足し合わせる
        • この値を、自由度 (ジェノタイプ数−アリル数)で評価する
          • SNPのとき(アリル数が2のとき)、ディプロタイプ的ジェノタイプ数は3であり、自由度は1
          • アリル数Naのとき、ディプロタイプ的ジェノタイプ数は、\frac{Na(Na+1)}{2}であるから、自由度は\frac{Na(Na+1)}{2}-Na=\frac{Na(Na-1)}{2}
          • アリル数Naのとき、コピー数和的ジェノタイプ数は、2\times Na-1であるから、自由度は2\times Na-1-Na=Na-1
    • HWEの正確確率検定
      • 観測ジェノタイプデータから、観測アリル本数を算出する。ディプロタイプ的ジェノタイプを観測すると、アリル本数は確定的に算出される。この染色体を、観測人数が2本ずつ持つことで観測可能なジェノタイプ別観測人数の確率を計算する。観測データの場合の確率と以下の確率を持つジェノタイプ別観測人数の確率を足し合わせたものが、正確確率である
    • 例1
      • SNPにて、ケース・コントロールの3ジェノタイプが49,42,9;25,50,25と観測されたとする。
      • この計算機ページから、計算機を立ち上げてみる
      • 上段3入力領域は、ジェノタイプの数、フェノタイプの数、アリルの数を入力する。SNPのケース・コントロール解析であるから、3,2,2である
      • 次の段。データは分割表(カウントデータ)であるから、カウントデータを示す、1を入れる。次の入力域は、個人別ジェノタイプを人数分、入力するときのものであるので、ここでは関係ない。
      • 次に大きなテキストフィールドのうち、上段が、カウントデータを入力する領域である
        • 1フェノタイプ:1行、1ジェノタイプ:1列とし、各列の値はタブで区切る。行末の値のあとにもタブを入れる。
          • 49\t42\t9\t\n25\t50\t25\t\n である
      • SNPデータなので、ボタン『SNP』を押す。
      • 一番下の大きなテキストフィールドに結果が出る
        • HWE検定の結果は、第15行から第20行である。
        • ケースとコントロール、その和の3通りについて、2つの検定手法(カイ自乗検定、正確確率検定)の結果が表示される。
0.9999999999999987	Case HWE test ChiSqP
1.0	Control HWE ChiSqP
0.5556897902852633	Case+Control HWE ChiSqP
1.0	Case HWE ExactP
1.0	Control HWE ExactP
0.5574982766552625	Case+Control HWE ExactP
        • または、第52行目から、カイ自乗検定の結果が示される。自由度1であることも示されている
HWE is tested based on allele frequency calculated from observed number of diplotype genotype.
HWE Chi	P	df
1.0303489374315257E-30	0.9999999999999992	1	Case
0.0	1.0	1	Control
0.3472222222222213	0.5556897902852633	1	Case+Control
        • サンプルのアリル頻度は第44行目から示され
Allele Frequency
0.7	0.3	
0.5	0.5	
0.6	0.4
    • 例2
      • アリル数3のCNPについてケース・コントロールのディプロタイプ的カウントデータが得られたとする。アリル数3のとき、ディプロタイプ的ジェノタイプ数は6であり、フェノタイプ数は2であるから、最上段には、6 2 3 を入力する
      • 今、カウントデータとして、10,20,30,40,50,60 がケース、11,21,31,41,51,61がコントロールとすると1形質1行、1ジェノタイプ1列で、タブ区切り、行末にはタブを加えてから改行するとし、大きなテキストフィールドのうち、上のスペースにそれを入力し、ボタン「CNP_diplotype」を押す
      • 結果が、最下段のフィールドに表示される
      • 第17行目から、3アリルの頻度が表示される
Allele Frequency
0.16666666666666666	0.35714285714285715	0.47619047619047616	
0.1712962962962963	0.35648148148148145	0.4722222222222222	
0.16901408450704225	0.3568075117370892	0.47417840375586856	
      • 第25行目から、カイ自乗検定の結果が表示される。正確確率検定は原理的にはSNPの場合(2アリル多型)の場合と同様に、算出可能であるが、計算負荷が大きい場合が多く、このツールでは算出しない。自由度3であることも示されている
HWE is tested based on allele frequency calculated from observed number of diplotype genotype.
HWE Chi	P	df
20.47619047619048	1.352240411929273E-4	3	Case
21.569057472212954	8.018363395057015E-5	3	Control
42.04610110469545	3.922758118335423E-9	3	Case+Control
    • 例3
      • アリル数4のCNPについてケース・コントロールのコピー数和的カウントデータが得られたとする。アリル数3のとき、コピー数和的ジェノタイプ数は7であり、フェノタイプ数は2であるから、最上段には、7 2 4 を入力する
      • 今、カウントデータとして、10,20,30,40,50,60,70 がケース、11,21,31,41,51,61,71がコントロールとすると1形質1行、1ジェノタイプ1列で、タブ区切り、行末にはタブを加えてから改行するとし、大きなテキストフィールドのうち、上のスペースにそれを入力し、ボタン「CNP_copy number type」を押す
      • 結果が、最下段のフィールドに表示される
      • 第19行目から、EMアルゴリズムで推定された、4アレルの頻度が表示される
Inferred Copy Number Allele Frequency with EM algorithm from Copy Number Type Genotype
0.16174473864063396	0.15277591341958108	0.20921395723893596	0.476265390700849	
0.16615116380833578	0.15271133429138925	0.2083189619434336	0.4728185399568413	
0.16398078346439338	0.15273417526479013	0.20876213858341247	0.47452290268740394	
      • 第28行目から、推定アリル頻度からHWE仮定で算出したジェノタイプ観測度数に対して求めたカイ自乗値とそれを自由度3で評価したP値が示される。自由度も3と表示される(2007/12/01現在、プログラムのバグで自由度が-1と表示されている!)
HWE is tested based on EM-inferred allele frequency.
HWE Pool Chi	P	df
12.920637578135537	0.004811412626169687	3	Case
13.905443417302665	0.003036726969469994	3	Control
26.824078378816864	6.40909894478181E-6	3	Case+Control
      • 第25行目から、カイ自乗検定の結果が表示される。正確確率検定は原理的にはSNPの場合(2アリル多型)の場合と同様に、算出可能であるが、計算負荷が大きい場合が多く、このツールでは算出しない。自由度3であることも示されている
      • アリル別観測本数は、推定以外では求められないので、それに該当する行は0で表示されている。