2 ジェノタイプとフェノタイプとの関係と遺伝

  • 遺伝
    • 遺伝するとは、複数の『個体』の間に存在する『血のつながり』が『個体』の『フェノタイプ』に『影響する』こと
    • 簡単に言うと、遺伝子が伝達することと、形質が伝達すること
  • 血のつながり
    • 2つの関係
    • 1つは、『個体』が作る、家系という関係
    • もう1つは、『個体』が持つ、『染色体』の伝達関係(Recombination Graph)
  • 個体のジェノタイプと染色体のアリルの関係
    • 染色体のアリルは、常染色体の場合、2つのアリルが1つのジェノタイプを作る
      • したがってディプロタイプ自体は、伝達関係にないが、密接な関係にある
  • 個体の属性と染色体の属性
    • 個体の属性
      • ジェノタイプ
      • フェノタイプ
    • 染色体の属性
      • アリル
  • ジェノタイプとフェノタイプに関連があるとは
    • ジェノタイプは多様
    • フェノタイプは多様
    • ジェノタイプとフェノタイプの分布・動きの様子に偏りがある
  • 関連の見極め方
    • ジェノタイプとフェノタイプの分布・動きの様子の偏りを見極めるには、
      • 『どこの分布』か、『どこの動き』かを定め
      • その『偏りのない状態』と比較することで初めて可能になる
    • ジェノタイプとフェノタイプの『どこの分布』
      • ジェノタイプとフェノタイプの『個人という器』という場所での同居具合
        • ジェノタイプ・フェノタイプ間偏り解析
    • ジェノタイプとフェノタイプの『どこの動き』
      • ジェノタイプとフェノタイプは、『染色体の伝達』という出来事という動きを持つ。この出来事という動きにあたって、同じ船に乗っているかどうかの具合
        • アリル・フェノタイプ同乗偏り解析
          • アリル伝達とフェノタイプ伝達間の偏り解析
          • Transmission Disequilibrium Test(TDT)
          • 連鎖解析
    • 解析統計手法
      • 偏りのない状態を定義し
      • 観測データの偏り具合の定量法(統計量)を定め
      • 統計量を確率密度分布等、確率的考え方で評定する

1 遺伝子多型・アリル・ジェノタイプ・フェノタイプ(形質)

  • 遺伝子多型
    • DNA配列は、同一種内で異なる部分がある。それを多型という。集団中での割合を定義に持ち込むこともある
    • 一塩基多型(SNP:Single Nucleotide Polymorphism)
      • DNA配列のある塩基が異なるような多型。たいていの場合、A,T,G,Cの4種類のうち、2種類のどちらかである
    • コピーナンバー多型(CNP:Copy Number Polymorphism)
      • ある配列がタンデムに繰り返され、その繰り返し回数が染色体によって異なるタイプの多型。長さが1000塩基対(1kb)を越えるものを、このように呼ぶ
    • その他の多型
      • タイプ別分類
        • 置換型
        • リピート型
        • 挿入欠失型
        • 逆位
        • 転座型
      • SNPは置換型、CNPはリピート型
      • SNPは一塩基、CNPは1kb以上
      • その他の多型は、さまざまな長さ、さまざまなタイプでいろいろなものが知られている。
  • アリル
    • 対立遺伝子
    • 多型のタイプの別のこと
    • SNPで言えば、AかTかのSNPのとき、Aはひとつのアリル、Tはもうひとつのアリル
    • CNPで言えば、リピート回数が1回であることがひとつのアリル、2回であることは別のアリル、3回の場合もあれば、それも別のアリル
    • アリルの種類数といえば、上の例で言えば、SNPは2つ、CNPは(この例では)3つ。biallelic, diallelicな多型と言えば、アリル種類数が2つの多型、triallelic といえば、アリル種類数が3つの多型
  • ハプロタイプ
    • 複数の多型のアリルの組合せをハプロタイプという
    • 通常、同一の染色体上に乗っているアリルの組合せからなり、そのハプロタイプは、多型間に交叉が起きなければ、ハプロタイプとして伝達される。
      • 多型間に偶数回の交叉がおきたときも、ハプロタイプは変わらずに伝達される。
      • 多型間に奇数回の交叉がおきたときは、ハプロタイプは変化して伝達される(2多型のどちらもヘテロで持っていた場合)。
  • ジェノタイプ
    • 遺伝型
    • 遺伝子多型のアリルの所有の具合で定まる型。ヒト常染色体の場合は、1対の染色体のそれぞれのアリルの複合として決まる。
    • ホモ・ヘテロ
      • 常染色体多型の2つのアリルが同一のとき、ホモ、異なるときヘテロという。
      • SNPの場合は、AAのホモ、ATのヘテロ、TTのホモなどとなる
      • CNPの場合は、コピー数1個と1個のホモ、1個と3個のヘテロなどとなる
    • 2つのアリルを区別しないジェノタイプ
      • CNPの場合などでは、実験の制約などから、1対の染色体のそれぞれのアリルを決められず、2つを合わせたコピー数のみが観測できることもある。このときは、1対の染色体のコピー数の和がジェノタイプとなる。1個と1個のホモのときは、コピー数ジェノタイプは2個、1個と3個のヘテロのときは、コピー数ジェノタイプは4個、2個と2個のホモのときも、コピー数ジェノタイプは4個
  • フェノタイプ
    • 形質
    • ジェノタイプがDNA配列の違いを観測することによって決まったの対して、それ以外の個体の特徴をフェノタイプという。観測できる特徴、定義できる事柄はなんでもフェノタイプである。
    • フェノタイプは、次のように分類する。解析の手法の選択に直結する分類である。
      • 0/1型
        • 2値型
        • ある特徴に合致するかしないか、○か×か、0か1か、というように観測できる特徴
        • ケース・コントロールなど
      • 1,2,3,…型
        • 順序カテゴリ型
        • 3つ以上に分類でき、その分類にはなにかしら順序があるもの
        • 軽度・中等度・重度など
      • A,B,C、…型
        • 非順序カテゴリ型
        • 3つ以上に分類でき、その分類には特に順序がないもの
        • 経口投与・経皮投与・経鼻投与・経静投与 など
      • 量的形質
        • さまざまな値をとるような形質
        • 身長、温度、抗体価、など

0 はじめに

  • 多型ジェノタイプ・形質間関連を解析する手法を了解するための覚書
  • 学部生レベルからスタート・・・??
  • 最後は、この記事の内容を了解して、この計算機(ベータ版・動作未確認・出力値の正しさも未検証)の出力を理解するところまでを目指す

4 ジェノタイプデータ(のみ)から考えること〜Hardy-Weinberg平衡検定

  • Hardy-Weinberg平衡(HWE:Hardy Weinberg Equilibrium)
    • ある集団において、メイティングがランダムであるとき、ディプロタイプが持つ、アリルの組合せは、集団のアリル頻度によってのみ決まると考えられる。ジェノタイプの頻度分布とアリルの頻度分布との関係が、このようになっていることをHardy-Weinberg平衡と呼ぶ。
  • ジェノタイプ・フェノタイプ関連解析においては、Hardy-Weinberg平衡にある集団からのランダムなサンプルにおいて解析していることを前提とすると都合がよいことが多いので、観測ジェノタイプデータがHardy-Weinberg平衡にあるか、その仮定が不適切かを検定する。
  • Hardy-Weinberg平衡検定
    • 検定の対象は大きく分けて2つ
      • サンプルが採られた母集団がHWEにあるか(母集団のHWEを疑っている)
        • 帰無仮説が棄却された場合には、ジェノタイプ・フェノタイプ関連検定の結果について、母集団のHWEからのずれ(Hardy-Weinberg不平衡)の影響を考慮する必要があることを示す
      • サンプルが、HWEにある母集団からのランダムサンプルと言えるか(母集団にHWEを仮定している)
        • 帰無仮説が棄却された場合には、サンプリングバイアスがあることを意味し、ジェノタイプ・フェノタイプ関連検定の実施自体が無効である可能性を示唆する
      • なお、この区別は通常、意識して分けられることはなく、また、検定処理自体はどちらも同じである
  • 比較するもの
    • 観測ジェノタイプ頻度分布と、HWE仮説が成立しているときに期待されるジェノタイプ頻度分布
      • HWE仮説が成立しているときに期待されるジェノタイプ分布は、アリル頻度分布から計算される
  • 比較に必要な頻度分布は観測されるか観測データから推定する
    • サンプルのジェノタイプ頻度分布は観測されるので既知である
      • (あるジェノタイプの観測人数)÷(観測層人数)
    • 母集団のジェノタイプ頻度分布は、サンプルのデータから推定する
      • 推定頻度は(あるジェノタイプの観測人数)÷(観測層人数)
    • 母集団のアリル頻度分布は、サンプルのデータから推定する
      • ディプロタイプ的ジェノタイプのときには、観測アリル本数を数え上げることができる
        • ホモ個体はそのアリルを2本、ヘテロ個体はそれぞれのアリルを1本ずつ持っている
        • 観測サンプルにおける、アリル頻度(あるアリルの観測本数)÷(総観測本数)を母集団のアリル頻度の推定値とする
      • コピー和タイプジェノタイプのときは、観測アリル本数を数え上げることができない。
  • 検定の実際
    • 2種類の検定法が用いられる。
      • カイ自乗検定
      • 正確確率検定
    • HWEのカイ自乗検定
      • ジェノタイプ数の観測数と、推定アリル頻度からHWEを満足するときのジェノタイプ別観測数の期待値を算出する。1xジェノタイプ数の観測数の表と同じサイズの期待度数表とから、カイ自乗値を算出する
        • 各ジェノタイプの(観測度数-期待度数)^2/期待度数を全ジェノタイプについて足し合わせる
        • この値を、自由度 (ジェノタイプ数−アリル数)で評価する
          • SNPのとき(アリル数が2のとき)、ディプロタイプ的ジェノタイプ数は3であり、自由度は1
          • アリル数Naのとき、ディプロタイプ的ジェノタイプ数は、\frac{Na(Na+1)}{2}であるから、自由度は\frac{Na(Na+1)}{2}-Na=\frac{Na(Na-1)}{2}
          • アリル数Naのとき、コピー数和的ジェノタイプ数は、2\times Na-1であるから、自由度は2\times Na-1-Na=Na-1
    • HWEの正確確率検定
      • 観測ジェノタイプデータから、観測アリル本数を算出する。ディプロタイプ的ジェノタイプを観測すると、アリル本数は確定的に算出される。この染色体を、観測人数が2本ずつ持つことで観測可能なジェノタイプ別観測人数の確率を計算する。観測データの場合の確率と以下の確率を持つジェノタイプ別観測人数の確率を足し合わせたものが、正確確率である
    • 例1
      • SNPにて、ケース・コントロールの3ジェノタイプが49,42,9;25,50,25と観測されたとする。
      • この計算機ページから、計算機を立ち上げてみる
      • 上段3入力領域は、ジェノタイプの数、フェノタイプの数、アリルの数を入力する。SNPのケース・コントロール解析であるから、3,2,2である
      • 次の段。データは分割表(カウントデータ)であるから、カウントデータを示す、1を入れる。次の入力域は、個人別ジェノタイプを人数分、入力するときのものであるので、ここでは関係ない。
      • 次に大きなテキストフィールドのうち、上段が、カウントデータを入力する領域である
        • 1フェノタイプ:1行、1ジェノタイプ:1列とし、各列の値はタブで区切る。行末の値のあとにもタブを入れる。
          • 49\t42\t9\t\n25\t50\t25\t\n である
      • SNPデータなので、ボタン『SNP』を押す。
      • 一番下の大きなテキストフィールドに結果が出る
        • HWE検定の結果は、第15行から第20行である。
        • ケースとコントロール、その和の3通りについて、2つの検定手法(カイ自乗検定、正確確率検定)の結果が表示される。
0.9999999999999987	Case HWE test ChiSqP
1.0	Control HWE ChiSqP
0.5556897902852633	Case+Control HWE ChiSqP
1.0	Case HWE ExactP
1.0	Control HWE ExactP
0.5574982766552625	Case+Control HWE ExactP
        • または、第52行目から、カイ自乗検定の結果が示される。自由度1であることも示されている
HWE is tested based on allele frequency calculated from observed number of diplotype genotype.
HWE Chi	P	df
1.0303489374315257E-30	0.9999999999999992	1	Case
0.0	1.0	1	Control
0.3472222222222213	0.5556897902852633	1	Case+Control
        • サンプルのアリル頻度は第44行目から示され
Allele Frequency
0.7	0.3	
0.5	0.5	
0.6	0.4
    • 例2
      • アリル数3のCNPについてケース・コントロールのディプロタイプ的カウントデータが得られたとする。アリル数3のとき、ディプロタイプ的ジェノタイプ数は6であり、フェノタイプ数は2であるから、最上段には、6 2 3 を入力する
      • 今、カウントデータとして、10,20,30,40,50,60 がケース、11,21,31,41,51,61がコントロールとすると1形質1行、1ジェノタイプ1列で、タブ区切り、行末にはタブを加えてから改行するとし、大きなテキストフィールドのうち、上のスペースにそれを入力し、ボタン「CNP_diplotype」を押す
      • 結果が、最下段のフィールドに表示される
      • 第17行目から、3アリルの頻度が表示される
Allele Frequency
0.16666666666666666	0.35714285714285715	0.47619047619047616	
0.1712962962962963	0.35648148148148145	0.4722222222222222	
0.16901408450704225	0.3568075117370892	0.47417840375586856	
      • 第25行目から、カイ自乗検定の結果が表示される。正確確率検定は原理的にはSNPの場合(2アリル多型)の場合と同様に、算出可能であるが、計算負荷が大きい場合が多く、このツールでは算出しない。自由度3であることも示されている
HWE is tested based on allele frequency calculated from observed number of diplotype genotype.
HWE Chi	P	df
20.47619047619048	1.352240411929273E-4	3	Case
21.569057472212954	8.018363395057015E-5	3	Control
42.04610110469545	3.922758118335423E-9	3	Case+Control
    • 例3
      • アリル数4のCNPについてケース・コントロールのコピー数和的カウントデータが得られたとする。アリル数3のとき、コピー数和的ジェノタイプ数は7であり、フェノタイプ数は2であるから、最上段には、7 2 4 を入力する
      • 今、カウントデータとして、10,20,30,40,50,60,70 がケース、11,21,31,41,51,61,71がコントロールとすると1形質1行、1ジェノタイプ1列で、タブ区切り、行末にはタブを加えてから改行するとし、大きなテキストフィールドのうち、上のスペースにそれを入力し、ボタン「CNP_copy number type」を押す
      • 結果が、最下段のフィールドに表示される
      • 第19行目から、EMアルゴリズムで推定された、4アレルの頻度が表示される
Inferred Copy Number Allele Frequency with EM algorithm from Copy Number Type Genotype
0.16174473864063396	0.15277591341958108	0.20921395723893596	0.476265390700849	
0.16615116380833578	0.15271133429138925	0.2083189619434336	0.4728185399568413	
0.16398078346439338	0.15273417526479013	0.20876213858341247	0.47452290268740394	
      • 第28行目から、推定アリル頻度からHWE仮定で算出したジェノタイプ観測度数に対して求めたカイ自乗値とそれを自由度3で評価したP値が示される。自由度も3と表示される(2007/12/01現在、プログラムのバグで自由度が-1と表示されている!)
HWE is tested based on EM-inferred allele frequency.
HWE Pool Chi	P	df
12.920637578135537	0.004811412626169687	3	Case
13.905443417302665	0.003036726969469994	3	Control
26.824078378816864	6.40909894478181E-6	3	Case+Control
      • 第25行目から、カイ自乗検定の結果が表示される。正確確率検定は原理的にはSNPの場合(2アリル多型)の場合と同様に、算出可能であるが、計算負荷が大きい場合が多く、このツールでは算出しない。自由度3であることも示されている
      • アリル別観測本数は、推定以外では求められないので、それに該当する行は0で表示されている。

3 SNP CNPのアリル・ディプロタイプ・ジェノタイプ・ハプロタイプ

  • アリル、アリル数(SNPのアリル数 NSa、CNPのアリル数NCa)
    • SNPのアリル
      • SNPのアリルはA,T,G,Cの4塩基のうちのどれかひとつをとる、とり方であるので、最大アリル数は4。
      • アリル数2であることが普通。実験データとしては、アリル数2のSNPのディプロタイプ タイピング手法が主流であるので、アリル数2であるものとして考える。
      • NSa=2
    • CNPのアリル
      • CNPのアリルは、単位配列のコピー数。コピー数は0回から不定回。最少コピー数は0、最多コピー数は不定
      • 最少コピー数がCm,最多コピー数がCMであるとき、アリル数の最大値は、CM-Cm+1。今、Cm以上、CM以下のコピー数のうち、集団に存在しないコピー数アリルがあったとしても、そのコピー数アリルの存在を仮定し、その集団内頻度が0であると考えることにすると、CNPのアリル数は、常に、CM-Cm+1と定めることができる。
      • NCa=CM-Cm+1
    • ハプロタイプのアリル
    • SNP
    • CNP
    • SNPとCNPとの組合せ
  • ジェノタイプ、ジェノタイプ数
    • 2種類のジェノタイプ
      • カテゴリとしての性格による分類
        • 順序なきカテゴリとしてのジェノタイプ
        • 順序ありカテゴリとしてのジェノタイプ
      • 2つの染色体アリルを区別するか否かによる分類
        • ディプロタイプ的ジェノタイプ
        • ディプロタイプ的でないジェノタイプ
        • 由来親(父親・母親)を区別するジェノタイプ(通常は使わない。実験観測も難しいので以降の記述では無視する)
    • ディプロタイプ的ジェノタイプのタイプ数(Ngd)
      • アリル数Na(NSaまたはNCa)から、2つを選択する仕方は、ホモの取りかたはNa、ヘテロのとり方は\frac{Na(Na-1)}{2}。それらを併せて、Ngd=Na+\frac{Na(Na-1)}{2}=\frac{Na(Na+1)}{2}
    • ディプロタイプ的でないジェノタイプ数(Ngc)
      • CNPの場合は、2アリルのコピー数の和とする。SNPの場合は、2アリルの片方のアレルのコピー数の和とする。SNPのアリルは、Cm=0,CM=1とみなせる。
      • 最少のコピー数和は2\times Cm、最多のコピー数和は2\times CM。とりうるすべてのコピー数和ジェノタイプの種類数はNgc=2\times CM - 2\times Cm +1 =2\times(CM-Cm)+1 = 2\times Na-1
    • ディプロタイプ的ジェノタイプとコピー数和ジェノタイプとの関係
      • ディプロタイプ的ジェノタイプが観測されれば、コピー数和ジェノタイプは確定的に定まる
      • コピー数和ジェノタイプが観測されたとき、ディプロタイプ的ジェノタイプは、推測される(2アリル型であることが分かっていれば、確定的に推測される)
      • ディプロタイプ的ジェノタイプ数はコピー数和ジェノタイプ数と同じかより多い
    • カテゴリの順序
      • Ngd、Ngcはカテゴリ数
      • Ngdは順序なし
      • Ngcはコピー数という順序がある
    • SNPの場合、2アリルCNPの場合の特徴
      • Ngd=Ngc→常に順序ありカテゴリとして扱いうる
    • 複合ジェノタイプ、そのジェノタイプ数
      • 複数の多型のジェノタイプの組合せ
        • 多型の数をNs(SNPの場合)、Nc(CNPの場合とする)と、
          • Ngd(SNP)^{Ns}=Ngc(SNP)^{Ns}=3^{Ns}
          • \Pi_{i=1}^{Nc} Ngd(CNP_i)もしくは\Pi_{i=1}^{Nc} Ngc(CNP_i)
  • アリル数、ディプロタイプ的ジェノタイプ数、コピー数和的ジェノタイプ数の関係
アレル数 ディプロタイプ的ジェノタイプ数 コピー数和的ジェノタイプ数
1 1 1
2 3 3
3 6 5
4 10 7
5 15 9
6 21 11
7 28 13
8 36 15
9 45 17
10 55 19
11 66 21

計算用エクセルはこちら(掲載予定)