- ある少なくない標本数で、多数のマーカーを調べ、マーカーについて検定を繰り返すことが、GWASでは行われる
- 言い換えると、巨大な(標本数xマーカー数)の疎な観測テーブルについて、多数の低自由度検定を実施していることになる
- この論文で示したように、このような多自由度テーブルにおける多数の低自由度(検定)は正球化座標で考えることができる
- また、非常に疎で、すべての行・列の周辺度数が1であるような2x検体数のテーブルにあっては、ピアソンのカイ自乗値は検体数になる(常に)。
- カイ自乗分布の平均が自由度に一致することは、このWikiページでも確認できるが、疎な2x検体数のテーブルの場合には、自由度(検体数ー1)に近い数である「検体数」のテーブルばかりが観察されることを意味する
- さて、それを前提知識として、次のような試行をしてみる
- 2x検体数のテーブルを観察したとする。観察される自由度=検体数ー1のテーブルのピアソンのカイ自乗値は検体数である
- そんなときに、「たくさんの」自由度1の検定を空間に均等に繰り返すと、そのときには、検体数が大きくなると、p値が一様分布になる様子が見て取れる
k<-10
Niter<-10000
R<-k+1
RandomSphere<-
function (df = 3, r = 1, n = 100)
{
rs <- matrix(rnorm(df * n), nrow = n)
rs/sqrt(apply(rs^2, 1, sum)) * r
}
rs<-RandomSphere(n=Niter,df=k)
plot(sort(pchisq((rs[,1]*sqrt(R))^2,df=1,lower.tail=FALSE)),type="l")
- そんなときの、「たくさんの」自由度1検定の中で、最大の統計量がどんな分布をとるかも、同様の試行でお試しすることができる
maxs<-apply(rs^2,1,max)*R
plot(sort(maxs),type="l")
mean(maxs)
- なお、テーブルが疎でないときには、ピアソンのカイ自乗値が特定の値のみとはならないので、「足し合わせが必要になる