集団構造化評価によるはずれサンプルの取り扱いの影響
Eigenstratというアプリケーションがある。Principal Component AnalysisベースのゲノムワイドSNP関連解析ツールである。
さて、このアプリケーションでは、PCAによって個人を集団構造特性の中の位置として表すが、その結果、過度に外れた位置にあるサンプルは除外した上で解析する。
xxx.chisq という出力ファイルには、このサンプル除外後のArmitage-trendテストのカイ自乗値と、Eigenstratの出力である、『(NSAMPLES-l-1) x (corr between adjusted_genotype and adjusted_phenotype)^2』のカイ自乗値が出る。
集団構造化情報によるサンプル除去をする前の検定結果と、除去後の検定結果とでは異なるトレンド検定結果が出る例を以下に示す。
Rのprop.trend.test関数の結果と、群馬大青木先生のR用Cochran.Armitage 関数の結果と、東大医科研HCGゲノム機能解析分野・京大(医)ゲノム医学センターWIKIのCochran-Armitage(P値)、Trend-chi test(P値)、線形回帰の結果と、除去後のEigenstratの"Armitage-trend"のカイ自乗値の対応が以下である。
- サンプル除去
- 除去前
case11|case12|case22|cont11|cont12|cont22|Sum11|Sum12|Sum22
1|47|144|2|46|162|3|93|306
-
- 除去後
case11|case12|case22|cont11|cont12|cont22|Sum11|Sum12|Sum22
1|43|144|2|46|160|3|89|304
- サンプル除去前
- サンプル除去後
以下は、その入出力詳細
- 除去前解析
- Rのprop.trend.test
prop.trend.test(c(1,47,144),c(3,93,306)) Chi-squared Test for Trend in Proportions data: c(1, 47, 144) out of c(3, 93, 306) , using scores: 1 2 3 X-squared = 0.1465, df = 1, p-value = 0.702
- 群馬大 青木先生のR用Cochran.Armitage関数
> Cochran.Armitage(c(1,47,144),c(3,93,306)) カイ二乗値 自由度 P 値 トレンド 0.1464664 1 0.7019353 直線からの乖離 0.4516722 1 0.5015419 非一様性 0.5981386 2 0.7415080
Case-control association test for SNP case11 case12 case22 cont11 cont12 cont22 1 47 144 2 46 162 3 93 306 0.7022885327401946 Cockran-Armitage Trend P 0.7019353022566788 TrendChiSqP Linear Regression Equation y=0.021290382301213637*x+0.4850504489493641 Pearson's r 0.019087806054550693 Ftest df 1.0 400.0 401.0 SumSq 0.036543193502084625 100.26196426918557 100.2985074626873 MeanSq 0.036543193502084625 0.2506549106729639 Fstat 0.14579085406295308 p 0.7027934240548022
- Eigen
- データなし
- 除去後解析
- Rのprop.trend.test
> prop.trend.test(c(1,43,144),c(3,89,304)) Chi-squared Test for Trend in Proportions data: c(1, 43, 144) out of c(3, 89, 304) , using scores: 1 2 3 X-squared = 5e-04, df = 1, p-value = 0.9818
- 群馬大 青木先生のR用Cochran.Armitage関数
Cochran.Armitage(c(1,43,144),c(3,89,304)) カイ二乗値 自由度 P 値 トレンド 0.0005231651 1 0.9817517 直線からの乖離 0.2666194335 1 0.6056086 非一様性 0.2671425986 2 0.8749651
Case-control association test for SNP case11 case12 case22 cont11 cont12 cont22 1 43 144 2 46 160 3 89 304 0.9817747865494834 Cockran-Armitage Trend P 0.98175173525954 TrendChiSqP Linear Regression Equation y=-0.0012915307868654382*x+0.5275257498950637 Pearson's r -0.0011494015676218401 Ftest df 1.0 394.0 395.0 SumSq 1.304576552389756E-4 98.74734428981849 98.747474747474 MeanSq 1.304576552389756E-4 0.2506277773853261 Fstat 5.20523529354866E-4 p 0.9818094049434506
- Eigen
0.98216