第1章 イントロダクション



  • 1.1,1.3 パーミュテーションテストとは
  • 複数データについて、ノンパラメトリックに仮説検定を行う手法
    • 母集団の確率密度分布についての情報が不要
    • パラメトリック手法が前提としている、変数の独立性や、データ数の下限、サンプリングのランダム性などのいくつかの基本的な制約について頑健
      • 変数の独立性について
        • 複数のカテゴリカル変数についての多変量解析は、変数間の独立性・依存性の評価が困難であるが、パーミュテーションテストにおいては、効率的に取り扱うことが可能
      • データ数の下限などについて
        • 正確検定と同様の検定結果をもたらす
      • サンプリングのランダム性について
        • たとえば、ケースとコントロールとが異なるサンプリングデザインからなされたとしても評価可能。オブザーベーショナルデータにも適用可能
  • 計算機的負荷が大きい
  • 1.2 Conditionality と Exchangeability
    • 変数がある
    • 複数のデータを取る
    • 複数のデータは、複数群に分割できる
    • 帰無仮説・対立仮説のそれぞれにおいて、同一群とみなされた(条件:Conditionality)データは相互に交換可能(Exchangeable)である
  • 1.4 パーミュテーション実行方法の分類
    • Heuristic(発見的)アプローチ->単純な問題には通常、十分
    • 2つのformal アプローチ->複雑な問題には必要
      • "Invariance approach"
      • "Conditioning approach"
  • 1.5 Randomization と Permutation
    • 無作為割付(randomization)と(無作為)順列割付(permutation)とは似ているけれど異なる作業
  • 1.6 Conditioning が適当な場合(完全に了解した上での記述になっていないことに注意)
    • 従属変数の分布モデルがノンパラメトリックなとき
    • 変数の分布モデルが十分特定されていないとき
    • 変数の分布モデルが十分特定されたとしても、nuisance parametersが多すぎるとき
    • nuisance paramterの分布モデルが不偏統計量を持たなかったり、帰無仮説における推定値が決まらないとき
    • 変数の分布モデルが与える付属の統計量が推定結果に強く影響するとき
    • 変数の分布モデルが与える付属の統計量が他のnuisance parameterに影響されるとき
    • 帰無仮説でのサンプリングの漸近近似が不特定の要素に依存するとき
    • サンプルサイズが従属変数の数に満たないとき
    • サンプルデータが有限集団から抽出された場合、および、サンプルサイズが変数の数より少ないとき
    • 多変量解析において、カテゴリカル変数と量的変数が混在するとき
    • 多変量解析における代替手法が適用できないような条件を持つデータであるとき
    • 変数に重要度の多寡があるとき
    • 欠測値を無視できないとき
    • サンプルに定義不能な選択バイアスがあるとき
    • 独立変数が複数の面に影響を与え、その複数影響を総合して評価したいとき
  • 1.7 計算機処理に関して
    • 観測データごとにパーミュテーション計算が必要
    • サンプル数が多いと、パーミュテーション分布の算出には膨大な計算量を要する
      • 正確な分布の算出
      • 近似分布の算出
    • 単変量解析にあたっては、多項式時間でパーミュテーション分布を得る方法が知られており、ディストリビュートされている
    • モンテカルロ "conditional simulation" による近似分布の算出を本書では用いている
      • これは Bootstrapと異なり、Without-replacement resamplingである
      • SAS,S-PLUS などのソースは教科書著者のホームページ(こちら)から