メモ



大規模データ・複雑データを一括してシンプルに扱うことを念頭に置いたメモ。

パーミュテーションテストについては、こちら、FDRについては、こちら、のそれぞれ、前掲記事と関連している。

SNP data の処理

  • 0 データ構成
    • マーカー数 M
    • サンプル数 N(ケースn1,コントロールn2)

  • 1 検定される帰無仮説の構成
    • 1 個々のマーカーにおける帰無仮説
      • (1)個々のマーカーは、2アレル・3ジェノタイプのケース・コントロール分割表データが得られる(2x3分割表)。これを個別マーカー2x3分割表と呼ぶこととする。
      • (2)1つの2x3分割表からは、次の4つの分割表を作成する。これを、個別マーカーの4つの亜分割表(2x3亜分割表、アレル亜分割表、優性亜分割表、劣性亜分割表)と呼ぶこととする。
      • (3)個別アレルの4亜分割表のそれぞれについて、ケース・コントロールが同一母集団由来であるとの仮説(計4仮説)を検定する。個別亜仮説と呼ぶこととする。
    • 2 複数の帰無仮説をグループ化し、その帰無仮説グループが全体として、棄却されるかいなかの仮説(グループ仮説)を検定する。
      • (1)帰無仮説のグループ化には、次の3通りを考える。
        • (i)個々のマーカーに立てられた4つの帰無仮説をグループとする。1グループには、4亜仮説あり、Mグループのグループ仮説がある。マーカー別グループ仮説と呼ぶこととする。
        • (ii)全てのマーカーについて、立てられた、4種類の帰無仮説を、その帰無仮説の種類ごとにグループとする。1グループにはM亜仮説あり、4グループのグループ仮説がある。分割表種類別グループ仮説(2x3グループ仮説、アレルグループ仮説、優性グループ仮説、劣性グループ仮説)と呼ぶこととする。
        • (iii)全てのマーカーに立てられた、すべての帰無仮説を1グループとする。1グループには、4xM亜仮説があり、1グループの仮説がある。全体グループ仮説と呼ぶこととする。
    • 3 パーミュテーション試行に対する統計量
      • 有意差検定の多検定補正の一環として、パーミュテーション試行を行う。個々のパーミュテーション試行ごとに、4亜分割表が作成され、総数として4xM分割表が作成される。それぞれについて、統計量が算出される。また、それぞれの統計量に対応して、個別亜仮説を単独の仮説としてとらえた場合の個別P値相当値も算出される。
    • 4 さらなるグループ化の複雑化への留意
      • (1)複数のマーカーをグループ化して、それについて仮説を立てることも可能である。たとえば、DNA上の領域ごとにグループ化しハプロタイプ検定をする場合や、相互に遠位のマーカー同士を分子機能によってグループ化して解析する場合などがこれに相当する。今回の解析ツールでは、その部分については考慮しないこととする。
      • (2)また、サンプル側のグループが1つの形質に着目した2群である場合を想定しているが、複数の形質で多次元に区切ることも可能である。そのような場合も今回の解析ツールでは考慮しないこととする。
    •  まとめ
      • 個別亜仮説 4xM 個の仮説
      • マーカー別グループ仮説 M 個の仮説
      • 種類別グループ仮説 4 個の仮説
      • 全体グループ仮説 1 個の仮説
  • 2 検定統計量とP値
    • 1 P値の種類
    • (i)補正前P値
    • (ii)パーミュテーション補正後P値
    • (iii)FDR補正後P値
    • 2 種類別P値の意味
      • (i)補正前P値

もし、その帰無仮説についてのみ検定を行っていたとしたときに与えられるべきP値

      • (ii)パーミュテーション補正後P値

複数の帰無仮説を同時に検定したとする。もし、すべての仮説が互いに独立であれば、Bonferroni補正を適用することが考慮されるが、仮説同士が非独立であるとき、Bonferroni補正は保守的過ぎる。仮説同士の非独立の程度を考慮して補正するのがパーミュテーション補正である。

      • (iii)FDR補正後P値

相互に独立な仮説であっても、Bonferroni補正は保守的過ぎる場合が多い。それは、Bonferroni補正は、すべての仮説がそろって棄却されない確率をもって、補正後P値とするわけであるが、これによって検定されている仮説のグループは、グループ中のどの帰無仮説も正しいような場合を前提としているために保守的となっているが、実際には、多数の帰無仮説のうち、ある一定数は棄却されるべき仮説であるとして、棄却域を定めたのが、FDRによる検定である。今、仮説のうち、qの割合の仮説が棄却されるべきであるとの仮定で棄却域を定め、その閾値によって、棄却された帰無仮説にその閾値をP値として与えると、個々の仮説には、その棄却される可能性の程度によって、0から1の値が与えられる。これをFDR補正後P値として与える。

    • 2 P値の算出
      • (i)補正前P値

観測データのみから算出できる

複数の算出の仕方がある

        • (a)分割表から統計量を算出し、それに対応するP値を得る方法
          • (a-1)カイ自乗値→対応自由度によるP値

期待度数が低い場合に誤差が出るので、部分的な使用にとどまるが、期待度数が高い場合には十分に正確

          • (a-2)Fisherの正確確率検定によるP値

期待度数によらずに正確なP値が得られる。観測度数に大小がないと計算量が多くなること、自由度が大きくなると計算量が大きくなることが、実用上の弊害であるが、パーミュテーション試行について適用しなければ、ホールゲノム解析のマーカー数にても利用可能な程度

          • (a-3)カイ自乗検定・Fisherの正確確率検定併用によるP値

誤差の小さい場合はカイ自乗検定を、誤差が無視しえない場合にはFisherの正確確率検定を用いる折衷法。

      • (b)パーミュテーションによって補正前P値を得る方法

統計量の確率密度分布がわかっていないときには、パーミュテーショナルに統計量の分布を出し、観測データの統計量がその分布のどこに位置するかを確認することでカイ自乗検定やFisherの正確確率検定と同等のP値を得ることができる。

確率密度分布がわかっている場合にも、パーミュテーション補正との兼ね合いなどから、パーミュテーショナルに求めたP値を補正前個別P値として用いることも可能である。特に、複雑なデータ構造で、確率密度分布の知られている統計量とそうでない統計量が混在しているときや、性質を異にする統計量を組み合わせる場合などは、思い切ってすべてパーミュテーショナルP値を用いることにすると、プログラミングの簡潔化が図れる(計算負荷は増える)。

パーミュテーションによって統計量の確率密度分布を得る方法には大きくわけて2つある。1つ目はすべての場合を計算して、完璧な確率密度分布を得る方法。もう1つは、シミュレーション試行を繰り返し、統計量の確率密度分布をモンテカルロにて得る方法。

    • (ii)パーミュテーション補正後のP値の算出
      • (a)仮説グループについての補正後P値

仮説グループ1つについて1つの補正後P値を出す。

仮説グループは上述したとおり、マーカー別グループ仮説、タイプ別グループ仮説、全グループ仮説などのグルーピングがある。それぞれで補正の結果は異なる。

得られるP値は、複数の仮説を束ねたグループ仮説のそれぞれに1つずつのP値である。M+4+1個のグループ仮説について、M+4+1個のP値が出る。

      • (b)個別仮説についての補正後P値

パーミュテーション補正によって、仮説グループについて1つのP値が得られるが、それだけでなく、その情報を用いて、個別仮説(個別亜仮説)について、グルーピングのパターンごとに、補正後P値を与えることも(それなりの)意味がある。仮説グループについて得られた統計量の確率密度分布と、個別仮説(個別亜仮説)の統計量とが比較可能な場合に可能となる方法である。

      • (a)仮説グループについての補正後P値の算出

観測データについて、補正前P値を得る。

パーミュテーション試行ごとに補正前P値を得る。

観測データ、および、パーミュテーション試行について、仮説グループを構成する仮説の数だけ補正前P値が得られている。この仮説の数のP値から、統計量を算出する。

Combining functionを用いて補正前P値の関数として算出する。

これを仮説グループ統計量と呼ぶこととする

        • (a-1)パーミュテーション試行ごとの補正前P値の算出

補正前P値の算出方法は、前項の場合と同じで、カイ自乗検定P値・Fisherの正確確率検定P値、折衷法P値、パーミュテーション確率密度分布から得るP値のいずれかを用いることができる。

パーミュテーション試行の回数だけ算出する必要があるので、計算負荷の大きいものは避けるのが望ましく、実際には、カイ自乗分布検定P値、もしくは、折衷P値が適当なことが多い。サンプル数が多くないときには、Fisherの正確確率検定P値も用いることができる。また、パーミュテーション試行回数があまり大きくないときには、パーミュテーション確率密度分布からのP値を用いることも可能である。

        • (a-2)Combining function

Tippette's combining fucntion

Fisher's combining function

Liptak's combining fucntion

Liptak's logit combining fucntion

などがある。

複数の帰無仮説の全てが正しいことが想定される場合に適当なのが、Tippette's combining fucntion、全ての帰無仮説が正しいことが想定される場合に適当なのが、、Liptak's (logit) combining funtion、その中間の性質を持つのが、Fisher's combining function

        • (a-3)仮説グループ統計量からのP値の算出

仮説グループ統計量の確率密度分布をパーミュテーション回数分の仮説グループ統計量から求め、その分布に照らして、観測データの仮説グループ統計量が相当するP値を得る。

      • (b)個別仮説についてのパーミュテーション補正後P値の算出

個別仮説の統計量かその補正前P値があり、パーミュテーションによって、それに相当する統計量かその補正前P値の確率密度分布が得られるとき、個別仮説について、パーミュテーション補正後P値を算出することが可能である。

(a-2)で示したCombining functionは複数の仮説のP値から、0-1の範囲の値を返す関数であり、個別仮説の補正前P値を、このcombining functionの与える値の確率密度分布に照らして補正することが考慮される。

理論的根拠が薄弱なので、一番保守的なTippette's combining functionが与えるP相当値の確率密度分布に照らして個別仮説の補正後P値を算出してみることとする。

おそらく、他のcombining functionの0-1範囲の値の分布との比較も意味づけは可能であると思われる。

    • (iii)FDR補正後P値の算出

仮説グループに属する個々の仮説に算出される補正前P値のセットについてFDRを適用することで、仮設グループのどれが、どの水準で棄却されるかが判定される。複数の棄却水準にて判定を行い、個々の仮説について、棄却する水準のうち、最も小さいものを、その仮説のFDR的値として与える。

      •  まとめ
        • 個別仮説(個別亜仮説)については
          • 4つの亜仮説のそれぞれについて
            • 補正前Pとして
              • Fisher正確確率検定P
              • カイ自乗検定P
              • パーミュテーショナルP
            • 小計 12個
          • 補正後Pとして
            • 仮説グループのTippette combining fucntionを用いた、個別Pが計3個
              • マーカーグループ仮説
              • タイプグループ仮説
              • 全仮説
              • 小計 12個
            • タイプ別にFDRを適用したP値
              • 小計4個
            • 全部で 28個
        • グループ仮説については
          • マーカーグループ仮説が
              • マーカー数 M
            • タイプグループ仮説が
              • タイプ数 4
            • 全グループ仮説が
  • 3 小規模データから大規模データまで普遍的に適用することを念頭に、次の仕様をデフォルト設定とする

    • 観測データに対するP値は、すべてFisherの正確確率検定P値を用いる。
    • 個別仮説数が多いと、特に、サンプル数が多いときには、計算負荷がばかにならない。もし、サンプル数が一定範囲内であり、仮説数が膨大なときには、すべての計算のはじめに、とりうるセル数に対応するすべての階乗(のログ)を計算しておくことが有効である。逆に、仮説数が少ないときには、オーバーヘッドとなることに留意。
      • これを、FDR補正に用いる。
    • パーミュテーション補正に関しては、観測データ分割表・パーミュテーション分割表のいずれにも、カイ自乗検定・Fisher折衷法によるP値を用いる。
    • この折衷P値によって、パーミュテーショナルな補正前P値、Combining function値を算出する。
    • 仮説グループに対して求めるP値は、3種類のcombining functionのそれぞれが与えるP値を併記する。
    • 個別仮説についてのパーミュテーション補正後P値は、マーカー別グループ、タイプ別グループ、全グループの5通りTippette's combining functionの値の確率密度分布に照らして得られるP値とする。
    • FDR補正後P値は、Fisherの正確確率検定で得られたP値についてFDRを適用して得られる値とする。
      • FDRは、ひとまずタイプ別に出してみる、あえて全グループ、マーカーグループでFDRをしていない理由はない。