第4限 Haplotypic dataとGenotypic data、そのGametic phase既知と未知



第3限にて、Haplotypic dataを用いて、Diversity indicesの解析とその結果の解釈を行った。第4限では、Genotypic dataに拡張する。

!注意! Diversity indicesのうち、Standard diversity、および、Theta(Hom)はhaplotypic dataとPhase既知のGenotypic dataにのみ適用すること。これらは、Phase未知のジェノタイプサンプルの記載の仕方により結果が異なる。2SNPのダブルヘテロのデータを


sample AA
CC
と書くか
sample AC
sample CA
と書くか

で、結果が異なる。これらは集団中のホモ個体率・ヘテロ個体率を用いて計算しているからである。また、MINIMUM SPANNING TREE/NETWORK、Mismatch distributionは出力されない。Haplotype frequencyはEMアルゴリズムの結果が出力される。Theta(Hom)を除くMolecular diversityのデータが得られるのは、それらは、ハプロタイプフェーズに依存しない指標だからである。

  • サンプルデータの作成
    • 第3限で用いたhaplotypic dataと同じ染色体構成となるようなGametic phase 既知のGenotypic dataを作成して解析を実行せよ。そうすることで、Gametic dataの解析とHaplotypic dataの解析の異動を確認する。Genotypic data-Phase既知の場合には、ハプロタイプベースの解析はHaplotypic dataのそれと同一になるはずであり、Genotypic data-Phase未知の場合には、推定haplotypeがhaplotypic dataのそれと異なるので、ハプロタイプベースの解析が異なることを、確認する。実際には、Standard diversity indices, Molecular diversity indices、Mismatch distributionはジェノタイプ情報、ハプロタイプ情報にのみ依存する。次の2つの内容を比較せよ。上はhaplotyic data解析で用いたSampleAのデータ、下はそれと同じhaplotic構成となるようなGenotypic dataの1例である。SampleSizeが半分(102=204/2)となっていること、また、上のA1,...A5はホモとして人数が半分に、A6,A7はあわせて4本の染色体からA6ホモ1人、A6-A7のヘテロ1人を作っている。Phase既知の場合はGameticPhase=1,未知の場合はGameticPhase=0とする

SampleName="SampleA"
SampleSize=204
SampleData={
A1 98 CTTGGA
A2 52 GTTGGG
A3 34 GTTGGA
A4 10 GTTTGG
A5 6 GATGAA
A6 3 GTCGGA
A7 1 CATGGG
}


SampleName="SampleA"
SampleSize=102
SampleData={
A1 49 CTTGGA
CTTGGA
A2 26 GTTGGG
GTTGGG
A3 17 GTTGGA
GTTGGA
A4 5 GTTTGG
GTTTGG
A5 3 GATGAA
GATGAA
A6 1 GTCGGA
GTCGGA
A7 1 CATGGG
GTCGGA
}

  • Genotypic data Phase既知の場合とhaplotypic dataの違い
    • Standard diversity indices

===============================
== Standard diversity indices : (SampleA)
===============================
<中略>
Sum of square freqs. : 0.3270
Gene diversity : 0.6763 0.0224
No. of Heterozigotes : 1
No. of Homozygotes : 101
Obs.Heter. : 0.0098
Exp.Heter. : 0.6763

      • No. of Heterozigotes, No. of Homozygotesの2項が追加されている
        • Genotypic サンプルのうちヘテロ個体数・ホモ個体数であり、Genotypic data固有の情報
      • Obs.Heter., Exp.Heter.の2項が追加されている
        • Obs.Heter.は入力データにおけるヘテロ個体の割合であり、Exp.Heter.はHardy-Weinberg平衡を仮定したときのヘテロ個体の割合の期待値である。Gene diversityの値と一致していることを確認せよ。
  • Molecular diversity indices
    • 距離行列・MINIMUM SPANNING TREE/NETWORK・Thetas
      • ハプロタイプ名にh1,...h7が振られている
      • それ以外はすべて同一である

Inter-haplotypic distance matrix (s.d. above diagonal):

h1 h2 h3 h4 h5 h6 h7

h1 1.1547 0.9129 1.2247 1.2247 1.1547 1.1547
h2 2.0000 0.9129 0.9129 1.2247 1.1547 1.1547
h3 1.0000 1.0000 1.1547 1.1547 0.9129 1.2247
h4 3.0000 1.0000 2.0000 1.1547 1.2247 1.2247
h5 3.0000 3.0000 2.0000 4.0000 1.2247 1.2247
h6 2.0000 2.0000 1.0000 3.0000 3.0000 1.1547
h7 2.0000 2.0000 3.0000 3.0000 3.0000 4.0000


List of Haplotypes:

h1 : CTTGGA
h2 : GTTGGG
h3 : GTTGGA
h4 : GTTTGG
h5 : GATGAA
h6 : GTCGGA
h7 : CATGGG


  • Mismatch distribution
    • haplotypic dataのときと異なるのは、以下の抜粋項目中、P(Sim. Ssd ....), P(Sim. Rag ....)のみであることを確認せよ。その値は、下記とも異なっているはずである
    • また、同一入力ファイルにて、再度実行し、その値場合とも比較せよ。やはりPのみが異なるはずである
    • Estimated Parameters...、および、Sum of Squared deviation, Harpending's R...は、決定的解析結果(Determinisitic) (入力データと、定められた計算式とから算術的に計算される値)であるために、同一である。他方、2つのP値は、Bootstrapサンプリング(乱数を用いて複数回試行した結果を用いて得られた確率分布を基準にして得られる値(確率的解析結果(Stochastic))であるために、解析のために異なる値が得られている。確率的解析結果の再現性を確認するためには、解析にて用いる擬似乱数列の初期引数(シード(seed,種))を特定して再実行すればよい。ただしArlequinの実行オプションには、シードの選択はないようである

==========================
== Mismatch distribution : (SampleA)
==========================

Estimated parameters from the sudden expension model: