集団構造化評価によるはずれサンプルの取り扱いの影響

Eigenstratというアプリケーションがある。Principal Component AnalysisベースのゲノムワイドSNP関連解析ツールである。
さて、このアプリケーションでは、PCAによって個人を集団構造特性の中の位置として表すが、その結果、過度に外れた位置にあるサンプルは除外した上で解析する。
xxx.chisq という出力ファイルには、このサンプル除外後のArmitage-trendテストのカイ自乗値と、Eigenstratの出力である、『(NSAMPLES-l-1) x (corr between adjusted_genotype and adjusted_phenotype)^2』のカイ自乗値が出る。

集団構造化情報によるサンプル除去をする前の検定結果と、除去後の検定結果とでは異なるトレンド検定結果が出る例を以下に示す。

Rのprop.trend.test関数の結果と、群馬大青木先生のR用Cochran.Armitage 関数の結果と、東大医科研HCGゲノム機能解析分野・京大(医)ゲノム医学センターWIKIのCochran-Armitage(P値)、Trend-chi test(P値)、線形回帰の結果と、除去後のEigenstratの"Armitage-trend"のカイ自乗値の対応が以下である。

  • サンプル除去
    • 除去前

case11|case12|case22|cont11|cont12|cont22|Sum11|Sum12|Sum22
1|47|144|2|46|162|3|93|306

    • 除去後

case11|case12|case22|cont11|cont12|cont22|Sum11|Sum12|Sum22
1|43|144|2|46|160|3|89|304

  • サンプル除去前
    • R prop.trend.test
      • X-squared = 0.1465, df = 1, p-value = 0.702
    • R Cochran.Armitage
    • Wiki
      • Cockran-Armitage Trend P 0.7022885327401946
      • TrendChiSqP 0.7019353022566788
      • 線形回帰検定P 0.7027934240548022
  • サンプル除去後
    • R prop.trend.test
      • X-squared = 5e-04, df = 1, p-value = 0.9818
    • R Cochran.Armitage
    • Wiki
      • Cockran-Armitage Trend P 0.9817747865494834
      • TrendChiSqP 0.98175173525954
      • 線形回帰検定P 0.9818094049434506
    • Eigenstratによる、サンプル除去後のArmitage-trend
      • Armitage-trend カイ自乗値 0.98216


以下は、その入出力詳細

  • 除去前解析
    • Rのprop.trend.test
prop.trend.test(c(1,47,144),c(3,93,306))

        Chi-squared Test for Trend in Proportions

data:  c(1, 47, 144) out of c(3, 93, 306) ,
 using scores: 1 2 3 
X-squared = 0.1465, df = 1, p-value = 0.702
  • 群馬大 青木先生のR用Cochran.Armitage関数
> Cochran.Armitage(c(1,47,144),c(3,93,306))
               カイ二乗値 自由度      P 値
トレンド        0.1464664      1 0.7019353
直線からの乖離  0.4516722      1 0.5015419
非一様性        0.5981386      2 0.7415080
Case-control association test for SNP
case11	case12	case22	cont11	cont12	cont22
1	47	144	2	46	162	3	93	306
0.7022885327401946	Cockran-Armitage Trend P
0.7019353022566788	TrendChiSqP
Linear Regression Equation	y=0.021290382301213637*x+0.4850504489493641
Pearson's r	0.019087806054550693
Ftest
df	1.0	400.0	401.0
SumSq	0.036543193502084625	100.26196426918557	100.2985074626873
MeanSq	0.036543193502084625	0.2506549106729639
Fstat	0.14579085406295308
p	0.7027934240548022 
  • Eigen
    • データなし
  • 除去後解析
    • Rのprop.trend.test
> prop.trend.test(c(1,43,144),c(3,89,304))

        Chi-squared Test for Trend in Proportions

data:  c(1, 43, 144) out of c(3, 89, 304) ,
 using scores: 1 2 3 
X-squared = 5e-04, df = 1, p-value = 0.9818
  • 群馬大 青木先生のR用Cochran.Armitage関数
Cochran.Armitage(c(1,43,144),c(3,89,304))
                 カイ二乗値 自由度      P 値
トレンド       0.0005231651      1 0.9817517
直線からの乖離 0.2666194335      1 0.6056086
非一様性       0.2671425986      2 0.8749651
Case-control association test for SNP
case11	case12	case22	cont11	cont12	cont22
1	43	144	2	46	160	3	89	304

0.9817747865494834	Cockran-Armitage Trend P
0.98175173525954	TrendChiSqP

Linear Regression Equation	y=-0.0012915307868654382*x+0.5275257498950637
Pearson's r	-0.0011494015676218401
Ftest
df	1.0	394.0	395.0
SumSq	1.304576552389756E-4	98.74734428981849	98.747474747474
MeanSq	1.304576552389756E-4	0.2506277773853261
Fstat	5.20523529354866E-4
p	0.9818094049434506
  • Eigen
0.98216