ryamadaの遺伝学・遺伝統計学メモ

2007-03-14

Population structure and eigenanalysis

集団構造化文献

Population Structure and Eigenanalysis by Nick Patterson, Alkes L. Price and David Reich

PLos Genetics (2006) 2 e190

文献はこちら

人数m x SNP数nのジェノタイプデータがあるとする。

データを標準化する
人数m x 人数mの情報にして
その主成分分析をする
固有値の大きさが帰無仮説においてとる理論分布から、得られた主成分に対応する固有値のP値を算出する
使用上の留意点
- 欠測値がないものとしてデータマトリクス(m x n)が作られる。欠測値がランダムならば結果への影響は少ないが、欠測値にバイアスがあると、それが、成分に反映する
- SNP間の非独立性。LDなどがあると、結果がゆがむ。現時点では、この単純な回避法はなく、ダウンロード可能なソースにもオプションとしてついていない

データの標準化。各SNPの片方のアレルの保有本数からスタートする。このアレル本数の平均値を求め、それとの差を、その個人のそのSNPについての値とする。ついで、２段階目の標準化をする。観測アレル頻度がpであったとする。このとき、平均値を差し引いた値を $￥sqrt{p(1-p)}$ で除した値を、最終的な主因子分析のためのマトリクスの値とする。こうすることにより、すべてのSNPに相当する平均値と分散とが、均一になる。

はてなブログをはじめよう！

ryamada22さんは、はてなブログを使っています。あなたもはてなブログをはじめてみませんか？

はてなブログをはじめる（無料）

はてなブログとは

ryamadaの遺伝学・遺伝統計学メモ

Powered by Hatena Blog | ブログを報告する

引用をストックしました

引用するにはまずログインしてください

引用をストックできませんでした。再度お試しください

限定公開記事のため引用できません。

読者です読者をやめる読者になる読者になる