集団構造化
昨日の続き PCAにより、GWASのジェノタイプデータでいくつかの軸情報で個人に「位置情報」が与えられる 個人の位置情報に応じて、個人のフェノタイプ(ケース・コントロール)とSNPのジェノタイプの値を補正する 補正したフェノタイプと補正したジェノ…
昨日の続きでは、正方行列を作らずに、非正方行列のままsvd()をかけるとどうなるかもやってみます。 同じ構造を表す固有値と固有ベクトルが取れました。 #構造化集団をシミュレート Nm<-1000 #マーカー数 Npop<-4 #亜集団数 Ns<-c(100,150,200,250) #集団別…
集団構造化があるときに、PCAして、プロットすることがある。 その情報を使って、形質マッピング検定に用いる前座のようなもの。 この論文がEigenstratのそれですが。 ここでやっている、PCA部分をRでなぞってみます #構造化集団をシミュレート Nm<-1000 #マ…
昨日の続き こちらを参照。少し変えてあります。 2つのファイルを用意します。"File1.plt"と"File2.plt"の2つです 読み込みますので、カレントディレクトリに置いておくのがよいです。 "File1.plt"は以下のように、初期設定をして、繰り返しプロットをする…
昨日の続き ケース・コントロールの2群が構造化のある集団からサンプリングされ、その構成にずれが生じているようなときに、そのサンプル2群のずれの方向にアレル頻度の勾配があるマーカーでのテストと、そのずれの方向とは直行する方向にアレル頻度の勾配…
構造化集団からのサンプルにおいて、多数の検定を行い、それを補正する場合、統計量のインフレーションとそれに伴うp値の低下を均並みに補正することもあれば、統計量のインフレーションの原因である構造化から情報を抽出して個々の検定ごとに補正すること…
論文 A randomization test for controlling population stratification in whole-genome association studies. Kimmel G, Jordan MI, Halperin E, Shamir R, Karp RM. Am J Hum Genet. 2007 Nov;81(5):895-905■ 方法 ●大規模SNPジェノタイプデータをもとに…
先日、Eigenanalysisについての記事(こちら)を書いた。 公開アプリケーションのケース・コントロール解析における、おおまかな実行手順は次の通り 1 ジェノタイプ・フェノタイプ・マーカーに関するファイルを用意する 2 本ツール用のフォーマットに直す 3…
大規模SNPデータのロジスティックリグレッションは、独立変数の数が多く、標本数を(はるかに)越える、という問題がある("short, fat datasets")。そのことは、計算上の負荷が大きいということと、多くの変数を用いるがために起きる、"over-fitting"の問題が…
いくつかの手法を比較している論文「Logistic regression protects against population structure in genetic association studies」by E. Setakis, H. Stirnadel and D.J. Balding はこちら 比較している手法は Armitage's trend test Genomic control Step…
Population Structure and Eigenanalysis by Nick Patterson, Alkes L. Price and David Reich PLos Genetics (2006) 2 e190 文献はこちら 人数m x SNP数nのジェノタイプデータがあるとする。 データを標準化する 人数m x 人数mの情報にして その主成分分析…