MCMC法とサンプリングアルゴリズム ぱらぱらめくる『はじめての統計データ分析』
- 視覚的に理解する
- 酔歩しながら、うまくサンプリングする方法(ヘイスティング・ギブスサンプラー)
- ちょっと工夫して、広く、高採択率でサンプリングする方法(ハミルトニアン)
- 事後分布を推定したい
- データを持っている
- データをもたらしたはずの分布モデルも持っている
- データをもたらした分布モデルのパラメタの事前分布を持っている
- この分布モデルのパラメタの事後分布が知りたい
- ごく簡単には、推定したいパラメタの値(複数のパラメタがあるならそのつい値の組)のすべてについて尤度を計算してやればよい
- 実際にはそんな全探索は場合の数が多すぎて(そもそも無限だし)大変すぎる。特に超低確率(低尤度)のパラメタ値のところは計算しても情報がほとんどない
- こうする
- 「どこが高尤度かは、初めはわかっていない」けれど、「いったん高尤度らしい場所」がわかったら、そのあたりを丁寧に調べるとよさそうだ
- しかも、調べながら、結果として、事後分布からの標本になっているようなら、手順として楽チン
- 実際にはどうする
- ありえるパラメタ値(のセット)を初期値とする
- 初期値が高尤度かどうかはわからない
- 初期値から始めて、次の候補地を選ぶルール(*)を決める
- 候補地は、現地点以上の尤度なら「採用」、現地点未満の尤度なら「採択することもあるし採択しないこともある」ことにする(確率的に決める)
- こうすることで、尤度が低めのところもサンプリングするが、尤度が高めのところをより高頻度にサンプリングする
- このサンプリングの結果がパラメタ値(のセット)の事後分布になることが知られている
- ただし、初期値からしばらくは、「低尤度から出発」したために、どんどん高尤度の地点に移動し続けてしまって、「採択したり、不採択にしたりする」という仕組みの使い方が、「高尤度の地点から出発」した場合と異なってしまうかもしれないので、そのような標本は「初期値依存」なので使わない(捨てる)。その代り、「低尤度地点から出発」しても、そのうち、「妥当な高尤度地点」に到達するので、そこから先の標本なら、初期値非依存なので、大丈夫
- 複数のアルゴリズム