Population structure and eigenanalysis
Population Structure and Eigenanalysis by Nick Patterson, Alkes L. Price and David Reich
PLos Genetics (2006) 2 e190
文献はこちら
人数m x SNP数nのジェノタイプデータがあるとする。
- データを標準化する
- 人数m x 人数mの情報にして
- その主成分分析をする
- 固有値の大きさが帰無仮説においてとる理論分布から、得られた主成分に対応する固有値のP値を算出する
- 使用上の留意点
- 欠測値がないものとしてデータマトリクス(m x n)が作られる。欠測値がランダムならば結果への影響は少ないが、欠測値にバイアスがあると、それが、成分に反映する
- SNP間の非独立性。LDなどがあると、結果がゆがむ。現時点では、この単純な回避法はなく、ダウンロード可能なソースにもオプションとしてついていない
- データの標準化。各SNPの片方のアレルの保有本数からスタートする。このアレル本数の平均値を求め、それとの差を、その個人のそのSNPについての値とする。ついで、2段階目の標準化をする。観測アレル頻度がpであったとする。このとき、平均値を差し引いた値をで除した値を、最終的な主因子分析のためのマトリクスの値とする。こうすることにより、すべてのSNPに相当する平均値と分散とが、均一になる。