Population structure and eigenanalysis



Population Structure and Eigenanalysis by Nick Patterson, Alkes L. Price and David Reich

PLos Genetics (2006) 2 e190

文献はこちら

人数m x SNP数nのジェノタイプデータがあるとする。

  • データを標準化する
  • 人数m x 人数mの情報にして
  • その主成分分析をする
  • 固有値の大きさが帰無仮説においてとる理論分布から、得られた主成分に対応する固有値のP値を算出する
  • 使用上の留意点
    • 欠測値がないものとしてデータマトリクス(m x n)が作られる。欠測値がランダムならば結果への影響は少ないが、欠測値にバイアスがあると、それが、成分に反映する
    • SNP間の非独立性。LDなどがあると、結果がゆがむ。現時点では、この単純な回避法はなく、ダウンロード可能なソースにもオプションとしてついていない

  • データの標準化。各SNPの片方のアレルの保有本数からスタートする。このアレル本数の平均値を求め、それとの差を、その個人のそのSNPについての値とする。ついで、2段階目の標準化をする。観測アレル頻度がpであったとする。このとき、平均値を差し引いた値を¥sqrt{p(1-p)}で除した値を、最終的な主因子分析のためのマトリクスの値とする。こうすることにより、すべてのSNPに相当する平均値と分散とが、均一になる。