第3限 配列の違いの評価(Diversity indices)
- サンプルデータ
- 2群(GroupA,GroupB)について、全6SNPが作るハプロタイプが観測された。GroupAでは102人=204本、GroupBでは69人=138本。GroupAには7種類のハプロタイプが認められ、A1...A7と名前をつけた。それぞれの観測本数は、98,52,...3,1本ずつである。入力ファイル(xxx.arqは以下のとおり。第2限のxxxx.arqファイルと次の点が異なることに留意せよ。GenotypicDataオプションが0(haplotypic)になり、GameticPhaseオプションは削られ、DataTypeがDNAと変更になっている。不明アレルは今回のデータにはないが、実行オプションとしてはMissingData="N"と変更してある
[Profile]
Title="Hap1"
NbSamples=2
GenotypicData=0
MissingData="N"
DataType=DNA
LocusSeparator=NONE
[Data]
[[Samples]]
SampleName="SampleA"
SampleSize=204
SampleData={
A1 98 CTTGGA
A2 52 GTTGGG
A3 34 GTTGGA
A4 10 GTTTGG
A5 6 GATGAA
A6 3 GTCGGA
A7 1 CATGGG
}
SampleName="SampleB"
SampleSize=138
SampleData={
B1 55 CTTGGA
B2 43 GTTGGG
B3 24 GTTGGA
B4 10 GTCGGA
B5 6 GATGAA
}
[[Structure]]StructureName = "Test"
NbGroups = 1
Group = {
"SampleA"
"SampleB"
}
- Diversity indicesの実行プログラムの設定
- このカテゴリのすべての解析を実行することとする
- Molecular diversity
- Standard diversity indices,Molecular diversity,Compute minimum spanning network among haplotypes,Print distance matrix,Theta(Hom),Theta(S),Theta(K),Theta(Pi)をチェックし、Molecular distanceはデフォルトのPairwise differecen,Gamma a:0.0とする
- Mismatch distributionにチェックを要れ、Molecular distanceはデフォルトのPairwise difference, Number of bootstrap replicates: もデフォルトの100とする
- Haplotype frequencies
- Gene frequency estimation,Estimate allele frequencies at all loci,Search for shared haplotypes between populationsにチェックを入れる
- Molecular diversity
- このカテゴリのすべての解析を実行することとする
- 実行
- Runボタンを押すとウィンドウのMessage欄に解析の進行を示す文字列が現れ、終了すると、ブラウザが立ち上がって結果が表示される。結果は別記事(こちら)に示すとおり。上から順番に概説をする
- Settings used for Calculations
- 実行オプションを記録した部分
- Checking for haplotypes shared among populations:
- 今回の例では2サンプル(SampleAとSampleB)で相互に一致するハプロタイプを提示し、その本数と頻度とを出力
- これ以降はSampleAとSampleBについて別個に解析した結果が、SampleAについての全結果,SampleBについての全結果の順番で記載されている
- Standard diversity indices
- 対象領域の多様性の強さを0から1の値で示している
- Gene diversityがその解(その他の出力はそのための計算過程で必要とする数値)
- SampleAでは7ハプロタイプが観測されている。今、1ハプロタイプしかないとするとこのハプロタイプ領域のdiversityは0(まったく多様性がない)。他方、無限大のハプロタイプ数が存在していれば、diversityは最大値の1で与えられる。また、ハプロタイプの種類数が同じく7だとしても7種類のハプロタイプのうち1つだけが極端に頻度が高く、残り6種類の頻度はほとんどゼロだとした場合には、diversityは、ただ1種類のハプロタイプが観測された場合に近く、7種類のハプロタイプ頻度が等しいときに、diversityの値が大きくなるような指標である。実際には、ハプロタイプをサンプリングした母集団においてランダムメイティングを仮定したときに、ヘテロ個体の普遍推定頻度をもって、diversityとしている
- Homozygosity Heterozygosityについての記事はこちら
- Molecular diversity indices
- 観測配列集合の遠近関係を示している
- MINIMUM SPANNING TREE between 距離行列からハプロタイプ集合の遠近関係の抽出
- 全ハプロタイプペアについて相互距離の算出がなされたが、それだけでは「親子関係」に類似した関係がわからない。親子関係は「木」で表されるので、「木」を選ぶ必要がある、そのアルゴリズムが、最小木アルゴリズムである(記事は[ http://d.hatena.ne.jp/ryamada22/20051215/1134593910:title=こちら])。簡単に言うと、すべてのハプロタイプを含み、かつ、サイクルを持たない木の形状をしているもののうち、もっとも枝の長さの総和が短いもののことを最小木という。すべてのハプロタイプがつながることを目指し、サイクル(閉路)を許さないアルゴリズムであるので、距離行列では短い距離になっているハプロタイプ同士の距離が結果として長くなる場合もある。たとえば、A2とA7の距離は2だが、下のMINIMUM SPANNING TREEでは、A2-A3-A1-A7とたどる必要があり、その距離は木の上では、4となっている
- 木は、あるハプロタイプとあるハプロタイプを結ぶエッジ(辺)のありなし、と、ある場合にはその長さがわかればよく、それを表したのが、
- 観測配列集合の遠近関係を示している
OTU 1 OTU 2 Connection length
===== ===== =================
A1 A3 1.00000
A3 A2 1.00000
A2 A4 1.00000
A3 A6 1.00000
A3 A5 2.00000
A1 A7 2.00000
の部分である。また、それを、Newick書式を含むNEXUS書式にしたのが NEXUS notation for MSTの部分である。Newick書式とその描図については、こちらを参照。
- MINIMUM SPANNING NETWORK
- MINIMUM SPANNING TREEはサイクルを許さないが、サイクルを許したのが、MINIMUM SPANNING NETWORKである。上の例で、A2-A7間は距離2であったので、A2-A7間に長さ2のエッジを加える。このエッジを加えても、どのハプロタイプペア間のNETWORK上の距離も、距離行列に示された距離より短くなっていないことに留意。新たに生じたパスについて確認するとA3-A7は距離行列上、距離3、TREE上、距離3、NETWORK上(新パス)で距離3、A4-A7も同様に、3、5、3。A6-A7は、4、4、4、である
- これを出力ファイルでは、次のようにして示している
OTU List of alternative links
=== =========================
A7 A2 (2.00000)
- グラフの用語(ノード・エッジ・木・グラフ・サイクル・パス、などについては、こちらを参照)
- Mean number of pairwise differences
- Nucleotide diversity
- 同じく、204x203/2ペアについての異なる塩基数を単位距離あたりに直したもの。具体的には、Mean number of pairwise differencesを配列距離(この場合はSNP数)で割った値。これが意味を持つのは、非多型部分も含めて配列を与えた場合
- Thetas
- Theta,は集団中の平均変異率を反映した数値。集団遺伝学においては、平均変異率uに対し、集団個体数N(diploid)にあって、theta = 4Nu で定義される
- Thetaの値の推定方法は複数のものが知られ、Arlequinでは、観測データそのものが与えるホモ個体比率から算出する方法(Theta(Hom))、解析対象範囲に認められた多型箇所数から推定する方法(Theta(S))、解析対象範囲の配列種類数から推定する方法(Theta(k))、Pairwise difference数平均値から推定する方法(Theta(pi))を選べる。Nucleotide diversityと同様、今回の入力データ(SNP位置のみの情報を入力)では不適
- それぞれ、標準偏差もしくは信頼区間が与えられる
- Mismatch distribution
- 母集団サイズの急増が最近起きたか、起きたとすれば、どのくらいのサイズからどのくらいのサイズへ、どのくらいの世代時間で起きたかを推定し、その母集団サイズ急増モデルへの当て嵌まりのよさを検定したもの。推定の基礎となる原理は、母集団の急増が起きている間には組み換えが起こらないことから、集団中に認められるハプロタイプの違いの分布には、急増の影響が認められるという仮定である。たとえば、時間の経過とともに、変異が蓄積して行く。AAAAAA->AGAAAA->AGGAAA->AGGAAGという変化が起きる一方で、AAAAAA->GAAAAA->GAAGAA->GAAGGAという変化が起きたとする。これに対して、組み換えが起きて出来上がった、7種類のハプロタイプAAAAAA,GAAAAG,AGAAGA,GAAAGG,AGGAAA,GAAGGA,AGGAAGがあるとすると、前者に見られる特徴を持って急増したとみなす。
- 推定値として、Theta0が急増開始前の平衡状態時の集団サイズを反映したTheta値の推定値を、Theta1が急増の結果、大きくなった集団サイズを反映したTheta値の推定値を表す(上記、Thetasのところでも記した式 theta = 4Nu を思い出すこと)。Tauが母集団サイズ急増期間を表す推定値(Tau=2ut; ただしtは時間)。また、急増モデルの当て嵌まりの評価はP(Sim. Ssd>= Obs. Ssd)に表されている。急増によって生じていると考えている観測データの「偏り」がSum of Squared deviationとして計算される。一方、モデルの変数推定値のもとでBootstrapサンプリングを行って計算したSum of Squared deviation値の分布を求め、その分布における観測値の偏りの程度をPとして与える。Sum of Squared deviationのほかに、raggedness indexについて同様にP値化したものも与えられている。出力ファイルの本項の出力は、変数推定とそのBootstrapの過程に関する出力である
- Haplotype frequencies estimation
- 今回の入力データはすでにハプロイドデータであり、ここの数値はモーメント法で出力されている(はず)
- Thetaとdiversityについては、別記事も参考