価値の高い場合に集中する

マルチプルテスティング補正において頑健な手法としてパーミュテーションテストがある。GWAにおいても形質のラベルシャッフリングの全順列を調べ上げる方法と、全順列は多すぎるので、モンテカルロ・シミュレーションにより、順列を抽出チェックすることで、観測された統計量の帰無仮説棄却の程度を推し量る方法である。
ただし、GWAではマーカー数が数十万(仮説数が数十万からのその数倍)、サンプル数が数千から万になっている今、順列数が多すぎること、また、観測統計量の大きさ(みかけのP値としての小ささ)から、非現実的である。
Am J Hum Genet 79, 481-492. 2006 にてKimmet and Shamirらが示しているように、調べる順列を効率よく選ぶことによって、この問題を越えることも可能である。彼らが本論文にて適用しているインポータンスサンプリングは次のような仕組みである。

(1)全順列のうち、関心のある統計量(観測統計量のうち、もっとも程度の強いもの)と同等かそれより強い統計量が、高頻度に採取されるような、順列の亜集合を定義する
(2)順列の部分集合から、統計量をサンプリングする。このとき、複数ある仮説のいずれかを採るかによって、関心のある統計量との大小の両側のサンプルが得られる
(3)このようにして得られる統計量は全順列の場合と異なり(全順列の場合は、すべての場合が等確率"equiprobable")、不均一な確率密度分布に乗っているので、この不均一な確率密度分布が知られていなければならないし、その算出が容易でなければならない。
上記(1)−(3)を実現するため、彼らは、各仮説について、関心ある統計量と同等かそれより程度の強い統計量を与えるような順列をサンプルしてやることで、順列の部分集合を得た。その上で、その部分集合中の順列は、当該仮説のほかの仮説においても強い統計量を与えていることがあるので、その比率に応じて、「強い統計量」と「弱い統計量」をもたらす確率に応じて、ウェートを置いている。


彼らはこの実装にあたって、まったく別の視点も取り入れている。それは、LD decayと呼ばれる視点である。マーカーごとに仮説を立てた場合、仮説間に認められる依存性は、LDの及ぶ範囲にとどまる(こともある)。これを利用し、統計量についての評価について、それぞれのマーカーとそのLDの及んでいる範囲の仮説のみを用いるというやり方である