ANOVA (Analysis Of VAriance) と AMOVA (Analysis of MOlecular VAriance)(Population subdivisionにおける)



  • ANOVA(ANalysis Of VAriance) (分散分析)
    • 基本的な統計手法の一つであり、そのすべてをここで説明することは不適切であるが、簡潔に述べると次の通り
      • 複数(3以上)の母集団を比較し、その平均値が等しいという仮定を検定するのがANOVA(analysis of variance、分散分析)。
      • 次の統計量を計算して得られる。
        • F= グループ間の分散(between variance)/ グループ内の分散(within variance)
      • F値の統計的有意性を検定することで検定されるのは、比較している複数の母集団が等しいという仮説が棄却されるか否か。どの2集団が異なるのかは検定されない(しない)。いったんF値が検定され、複数の母集団の平均が等しい仮説が棄却された後に、どの母集団同士の平均が等しくないかを解析することに意味が生じ、それを行う(こともある)。このようにそれはANOVAの下位検定と呼ばれる。
  • Population subdivisionにおけるANOVAとAMOVA
    • Population subdivisionにおけるANOVA
      • 基本的な考え方は、Wright's F_{ST}に同じ(関連記事はこちら)。Heterozygosityのばらつきを均一亜集団内のばらつきと亜集団間のばらつきとの和に分解し、その比を算出している。
      • 観測データの全サンプルの遠近関係を数値化し、そのばらつき具合に与えられた個体の所属関係の階層ごとにばらつきを分解してやる(分解要素の和になることになっている)。所属関係は個人-個人が所属する集団-相互に関連のある集団(上位集団)-全体、というような階層構造になっており、全体のばらつきのうち、集団・上位集団が規定するばらつきがどのくらいの割合を占めるかをもって、集団・上位集団間の遠近程度の尺度とする。
    • Population subdivision におけるAMOVA
      • ANOVAとAMOVAの違い
        • サンプルから算出する値(分散に相当する統計量)を階層に分解することで解析を行う点は同じ。
        • ANOVAでは、導入したyという変量について、その平均からのずれを平方和とするのに対して、AMOVAでは、ハプロタイプをS次元ベクトルとみなし(多型箇所S個)そのハプロタイプベクトル間のユークリッド距離を考え、それが平方和形式の式で書き表されるので、それを用いる
        • ANOVAでは、アレルが個人というdiplotypeへ、どのように分布するか、個人は亜集団にどのように分布するか、亜集団はどのように集団を分布するかについて解析するのに対し、AMOVAは、ハプロタイプ同士が亜集団中でどういう遠近関係にあるか、ハプロタイプは亜集団にどのように分布するか、亜集団はどのようにグループを構成するか、グループはどのように全体集団を構成するかについて解析する。
        • ANOVAの場合
          • アレル頻度pについて、次のような変数を定義する。pが定める変量yについて亜集団間をANOVAで比較する(平均値が等しいという仮説にもとづき、分散分析をする)
          • yは、アレルAを持つときに1、アレルaを持つときに0を与えることとし、2つのアレルを取り上げたときには、y_1 y_2として、AAのときに1、それ以外のときには0となるような指標であるものとする。E(y)=p ¥times 1 + (1-p) ¥times 0(1つを取り出すときにAをうる確率はpで、そのときポイント1を取得し、aをうる確率は1-pで、そのときはポイント0を獲得するから)のように、指標yの期待値E(y)=pである。また、y^2の期待値E(y^2)は、when y=1, y^2=1  when y=0  y^2=0であることに注意するとE(y^2)=Pr(y=1) ¥times 1 + Pr(y=0) ¥times 0 = pである。今、2つの染色体を取り出すときに、第1アレルの取り出しと第2アレルの取り出しが互いに独立であるとき、y_1=1,y_2=1y_1 ¥times y_2 =1となる確率はp^2 + ¥beta ただし ¥beta=0 であるけれど、第1アレルと第2アレルとが独立でないとき(subdivisionが存在するとき)には、¥beta ¥not = 0である
        • AMOVAの場合
          • ハプロタイプは相互に連鎖不平衡関係にある複数(S箇所)の多型サイトの連なりである。
    • なお、AMOVAの統計的有意差については、Arlequinでは、premutationにてシミュレーショナルに求める