2016-02-28

ぱらぱらめくるselective inference論文

Selective inferenceは「データを眺めることで、説明変数を絞りこみ(selectionし)、そのうえで絞り込んだ変数について推定(inference)することにするが、そのときselectionがinferenceに影響するので、どうするのがよいのかを考えよう」と言ってよいでしょう。
大規模データ解析・高次元データマイニングなどで用いられるアプローチです
少し調べ物をしたのですが、論文や総説は「Xの解析にAという解析手法が使われるが、それはselective inferenceなやり方だ。ではAとはどういう手法かというと…」という書き方になっています
「XにA」「YにB」「ZにC」となっているだけだと、「共通項としてのselective inference」がよくわからない
ので、まずは「XにA」「YにB」「ZにC」となっている複数の解説をぱらぱらとめくってみることにする
FDR (Selective inference in complex research)
- マルチプルテスティングのp値補正は、すべての仮説が帰無であることを基準としたボンフェロにやSidakと、それよりも緩いFDRとがある。そのFDRにおける選択基準の緩め方は、「選択~selection」という意味でSelective inferenceの一部であるし、そのselectされたアイテムに効果サイズの推定をするときに、selective なinferenceをすることになる。信頼区間をselectedであることに留意して調整したりする必要があるし、推定された効果サイズが正しければ、レプリケーションされるかどうかの挙動についても適切になるはずだ、という内容
Statistical Learning (Statistical learning and selective inference)
- Forward stepwise regression, Lasso, PCAに見るselective inference
- Forward stepwiseにおける第一歩は、複数の変数の「トップ」を採用するので、もろにマルチプルテスティング影響を受ける。その分の補正をすることは簡単なケースではできるが、現実課題に対応した多変量解析にはすぐには対応していない。ただし、よく考えれば、説明変数に付与する係数が多次元正規分布しているとして、観察データに照らして、どこが一番遠いかを探せばよい。ただし、Forward stepwiseのときには、探すポイントは、変数の軸方向の点、変数のセットの張る部分平面上の最遠点、といったものになる。それは、凸包探索になっている
- このステップ処理をどこまで続けるかという問題は、マルチプルテスティングの枠組みで考えることができる。すべての変数が関係ないことを基準とするなら、ボンフェロニやSidak的に閾値設定することになるし、FDR的に設定することもできる
- Lassoでは、係数空間の探索において、不採択変数と採択変数に分けるにあたり、ペナルティ項を入れて、最適点(最遠点)を探す作業になる
- PCAでは説明変数をいったん忘れて、説明軸を取り直すわけだが、その取り直した軸からselectionするなり、Lasso的に係数を与えるなりすることもできる
- Lasso, PCAでもForward stepwiseと同じように、閾値の定め方にはFDR的にするかどうかという基準が入れられるだろう
Multiple comparison procedures (MCP)(Simultaneous and selective inference: Current successes and future challenges)
- FDRが専門の(?) 著者が書いたもので、FDR (Selective inference in complex research)も書いている人なのでまとめ方は同じだが…
- MCPがそれなりに役割を果たしていることは事実だが、fMRI領域のようにまったく使えていない領域もある(MCPが手法的にprematureだから)。GWASもまあ、いわゆるMCPを使えていない方だろう(経験的閾値依存な現状)、医学研究でも使えていない(再現性の悪さはそれとも関係しているか)
- Multiplicity-related error rates
  - Unadjusted inference ()
    - Weak control of FWER ( $Pr(V \ge 1) \le \alpha$ )
    - k-FDR ( $E((V-k)_+ /R) \le q$ )
    - False Exceedance Rate ([tex;Pr(V/R > q) \le \alpha])
    - Weighted FDR (wFDR) ( $E(\sum \omega_i R_i/(\sum \omega_i V_i)) \le q$ )
  - FDR ()
    - Positive FDR (pFDR) ( $E(V/R | R > 0) \le q$ )
    - FDr ( $E(V) / R(R) \le q$ )
    - Fdr(z) ( $Fdr(z) =p_0 F_0(z) / F(z)$ )
    - local FDR ( $fdr(z) = p_0 f_0(z) / f(z)$ )
    - k-FWER ( $Pr(V \ge k) \le \alpha$ )
  - Family Wise Error Rate (FWER) ( $Pr(V \ge 1) \le \alpha$ )
  - Pre-Family Error Rate (PFE) ( $E(V) \le \alpha$ )
- Selectすることと、効果サイズを推定することは違うし、効果サイズの信頼区間を推定することも違う
選択後の推定問題 (Exact Post-Selection Inference for Sequential Regression Procedures)
- Forward stepwise linear regression, Lasso, LARS
- RのselectiveInferenceパッケージ
- 先行研究にはBerkらによる「ありとあらゆる変数組み合わせモデルを仮定して…」というようなものもある
- Forward stepwiseもLassoもLARSも探索空間をたどる軌道があるけれど、「最終解」に行き着いたのは、その軌道に依存している点が共通。その軌道依存性が係数推定の点推定と区間推定に影響を与えるわけで、その話
- 簡単に言うと、モデル選択(採用変数を決めて係数を定める)したときに、指しているベクトルがどれくらいの範囲に変更してもよいかを考えるのが区間推定問題。ベクトルがある範囲に納まることに閾値があると言っている。その範囲が線形回帰の枠組みでは凸包になっているし、その凸包はモデル選択をしながら「中心〜点推定」の周囲にあること、また条件付き確率を持つ空間でそれを探索することである、という枠組みで、推定範囲を定めていく、ということらしい
- 実は、採用変数をいくつにするかなどについての絶対的な正解はない中でやっているので、RのselectiveInfereneパッケージでも、そのあたりは理論的ファジーさを残しつつ実装してあるとのこと