SNPデータ解析の場合のトレンドテストとHWEの関係覚書



SNPジェノタイプのケースコントロール2x3分割表を考える。

AAABBBsum
caseg10g11g12P_1
caseg20g21g22P_2

では¥frac{A_0B_0}{2(N(G_0+G_2)-(G_0-G_2)^2)}=1とはどういう関係かというと、この式変形をすることでG_1^2=4G_0G_2なる関係を満たしている場合であることが得られ、これは、G_0=x^2,G_1=2x(1-x),G_2=(1-x)^2なるxが存在するときのことであり、HWEが成立しているときに他ならない。

totalG_0G_1G_2N

なる2x3分割表がある。

これから、アレル本数を比べた2x2分割表を作ると

ABsum
caseA_1B_12P_1
caseA_2B_22P_2
totalA_0B_02N

となる。ただし、A_1=2g10+g11,B_1=2g12+g11,A_2=2g20+g21,B_2=2g22+g21であるっものとする。

今、トレンドカイ自乗統計量Y^2

Y^2=¥frac{N(N(g11+2g10)-P_1(G_1+2G_2))^2}{P_1P_2(N(G_1+4G_0)-(G_1+2G_2)^2)

と書き表される。これは、6月1日の記事(こちら)の変数表記を上掲の表に合わせたものである。

これを適当に式変形することで次のような式が得られる。

Y^2=¥frac{N(P_2A_1-P_1A_2)^2}{G_2A_0+G_0B_0}

一方、上掲の2x2分割表におけるカイ自乗統計量¥chi^2_p

¥chi^2_p=¥frac{(2N)(A_1B_2-A_2B_1)^2}{(2P_1)(2P_2)A_0B_0}となる(参考サイトはこちら)

ここでB_1=2P_1-A_1,B_2=2P_2-A_2であることに注意すると

¥chi^2_p=¥frac{(2N)(2P_2A_1-2P_1A_2)^2}{(2P_1)(2P_2)A_0B_0}が得られる。

Y^2の式と¥chi^2_pを比較することで

Y^2=¥chi^2_p ¥times ¥frac{A_0B_0}{2(N(G_0+G_2)-(G_0-G_2)^2)}なる関係が得られる。

この式から、¥frac{A_0B_0}{2(N(G_0+G_2)-(G_0-G_2)^2)}=1であるとき、Y^2=¥chi^2_pなる関係にあることがわかる。

この関係式の検算に用いた(まったくのメモ)のエクセルはこちら

補足

書き方を変えると

Y^2=¥chi^2_p ¥times (1+¥frac{A_0B_0-(2(N(G_0+G_2)-(G_0-G_2)^2)}{2(N(G_0+G_2)-(G_0-G_2)^2)})

さらに式変形すると

Y^2=¥chi^2_p ¥times (1+¥frac{G_1^2-4G_0G_2}{2(N(G_0+G_2)-(G_0-G_2)^2)})

この式の分数部分の分母は正であるかY^2<¥chi^2_pとなる。

分数部分の正負は、HWEからヘテロが増える方向へのずれの場合が正、ヘテロが減る方向へのずれの場合が負である。したがって、HWEからヘテロ増大側へのずれのとき、Y^2>¥chi^2_pヘテロ減少側へのずれのとき、Y^2<¥chi^2_p。階層化等の影響があるときはヘテロ減少側へずれるので、トレンドテストを用いることで、関連検定においてはより保守的な方向で正確な検定結果が得られることがわかる。