SNPにおけるgenomic control補正でのカイ自乗分布の対数対数プロット



Genomic controlは構造化のある集団において得られる統計量を、その集団において観測する多数の帰無仮説OK仮説からの統計量の分布を用いて補正するという考え方で、ここ数週間のこの日記の主要テーマの1つとなっている。

さて、簡単に言うと、構造化の影響を受けて、低P値が頻発するスタディにおいて、その低P値の原因を構造化のみに帰することができるような前提にあるとする(そうしないと、複雑すぎて論が進められなくなるから)。たとえば、環境要因が集団を構成する亜集団間で大きく違わない、などである。また、中心極限定理が成り立つことが仮定できる程度に、亜集団構成が複雑である、などである。

このようなとき、検定統計量のインフレーションを起こす要素はfによって代表される、アレル間の相関関係に由来する量(¥tau^2)と、マーカー間の相関関係に由来する量(¥mu^2)の2要素の和となる。今、この2つのインフレーション要素のいずれも、ゲノムにわたってほぼ均等であると見なせるとすると、この2要素の和(¥lambda = ¥tau^2 + ¥mu^2)が統計量のインフレーションを起こす。

たとえば、2x2分割表検定でカイ自乗統計量を用いているような場合には、このような解析サンプルから得られるカイ自乗統計量は¥lambda倍大きく観測される。これはどういうことかというと、理想的なサンプルの場合には、カイ自乗統計量がカイ自乗分布に則った分布をとり、たとえば、10万個の仮説検定から得られた10万個のカイ自乗値の中央値が0.456(カイ自乗値が0.456のとき、それに相当するp値は0.5である(自由度1の場合)程度となるのに対して、構造化があるサンプルの場合には、0.456 ¥times ¥lambdaの値が、10万個のカイ自乗値の中央値となっている、ということである。これを示したのがこちらのエクセルである。

カイ自乗値のインフレーションが、通常の軸表示でのプロットの上に凸によって示されている。それを両対数グラフで示すと、ほぼ直線になっていることがわかる。両対数プロットが直線になるのは、累積確率密度分布関数がQ(p)=p^kとなる場合であるが、それを灰色でプロットすると少しだけずれていることがわかる。