第6限 Neutralityテスト



  • 分子進化の中立仮説にもとづいたモデルからの予想値と実測データの乖離の程度を評価するのが、Neutralityテストである。テストは、実測データのあるものの分布が、モデルにからの予想の分布との差について検定することにより行われる。アレルに関する分布を用いる場合と、アレルを構成する個々の多型箇所に関する分布を用いる場合との2種類がある。アレルに関する分布を与えるモデルは、Infinite-alleles model(記事はこちら、また、アレル単位での多型・遺伝的多様性の指標であるHomozygosity,Heterozygosityに関する記事はこちら) であり、アレルを構成する個々の多型箇所およびそれらの相互関係についての分布を与えるモデルが、Infinite-sites model(記事はこちら)である。
  • Arlequinが提供するNeutralityテストは、次の4つ。アレルベースのものと個々の多型箇所ベースのものとに分類される
    • Infinite-alleles modelベースのテスト
      • Ewens-Watterson neutrality tests
      • Chakraborty's test of population amalgamation
    • Infinite-sites modelベースのテスト
      • Tajima's test
      • Fu's Fs test
  • Infinite-alleles modelベースのテスト
    • Ewens-Watterson neutrality test
      • Infinite-alleles modelにおいては、変異の新規発生とその遺伝的浮動との影響から、複数のアレルが異なるアレル頻度を有する状態で定常になる。そのようなときにサンプリングし、そのアレル数を観測すると、観測アレル数は、Theta(4N¥mu)とサンプル数とで決まる分布を取ることが知られている。観測データのモデル適合度をPermutationベースで評価したものがEwens-Watterson neutrality testである
    • Chakraborty's test of population agalgamation
      • 均一な集団に認められるアレル数と不均一集団に認められるアレル数では、後者の方が多くなる。このことから、観測データのHomozygosityから推定されるTheta(Theta(Hom))を用いて、均一集団仮説からの逸脱の程度を検定したものである
  • Infinite-sites modelベースのテスト
    • Tajima's test
      • 第3限で示したとおり、Thetaの推定には、複数の方法がある。それぞれのTheta算出方法には、それぞれモデル・仮定がある。今、観測データに対してThetaを推定すると複数のThetaの値は(普通)一致しないが、その理由には、それぞれのThetaの背景となっているモデルの違いがある。その点を利用して、ThetaS(対象領域の多型箇所数から算出)とThetaPi(染色体ペアの異塩基数から算出)との異同をもとにNeutralityからのずれを評価したもの
    • Fu's Fs
      • Tajima's test と同様に観測データから得られるThetaPiを用いて、そのThetaの値の下で、集団に認められるべきアレル数と実際に観測されたアレル数との差異をもとにNeutralityを評価する
  • 出力例
    • 第3限に用いたSampleAについて上記4種類のNeutralityを選択して実行した結果を以下に示す。
    • Tajima's testでは、Molecular diversityオプションで計算させたTheta(Pi)と同じ値がMean No. of pairwise difference (Pi)として再掲されているともに、Thesa(S)と同じ値がObs. Theta(S)に再掲されている。Theta(S)の値をPermutationしていることが示されている。
      • Simulationから算出したP値は、P(D simul < D obs)に記載されている

==========================================
== Tajima's test of selective neutrality : (SampleA)
==========================================

Reference: Tajima, F. 1989a.
Tajima, F., 1996.
Sample size : 204
No. of sites with substitutions (S) : 6
Mean No. of pairwise differences (Pi) : 1.17782
Distance method : Pairwise difference (no Gamma correction, indels not taken into account)

Tajima's D : 0.31759

P(D random < D obs) : -0.35930 (Beta distribution aproximation)

No. of simulations : 1000
Obs. Theta(S) : 1.01818
Mean Theta(S) : 0.83134
S.D. Theta(S) : 0.23665
Mean D : 0.16136
S.D. D : 1.09841

P(D simul < D obs) : 0.60800

    • Ewens-Watterson testsではObserved F valueとしてStandard diversity indices のSum of square freqs.が示されている
      • 検定結果としてのP値が Slatkin's Exact P.Value で示されている

==================================================
== Ewens-Watterson tests of selective neutrality : (SampleA)
==================================================

Reference: Ewens, W.J. 1972.
Watterson, G., 1975.
Stewart, F. M. 1977.
Slatkin, M. 1994b.
Slatkin , M., 1996.
Original haplotype definition was used for the tests

No. of genes in sample : 204.00000
No. of haplotypes in sample : 7
Observed F value : 0.32704
Expected F value : 0.42068
No. of simulated samples : 1000
Watterson F P.Value : 0.32600
Slatkin's Exact P.Value : 0.33400