MCMC法とサンプリングアルゴリズム ぱらぱらめくる『はじめての統計データ分析』

  • 視覚的に理解する
  • 事後分布を推定したい
    • データを持っている
    • データをもたらしたはずの分布モデルも持っている
    • データをもたらした分布モデルのパラメタの事前分布を持っている
    • この分布モデルのパラメタの事後分布が知りたい
  • ごく簡単には、推定したいパラメタの値(複数のパラメタがあるならそのつい値の組)のすべてについて尤度を計算してやればよい
  • 実際にはそんな全探索は場合の数が多すぎて(そもそも無限だし)大変すぎる。特に超低確率(低尤度)のパラメタ値のところは計算しても情報がほとんどない
  • こうする
    • 「どこが高尤度かは、初めはわかっていない」けれど、「いったん高尤度らしい場所」がわかったら、そのあたりを丁寧に調べるとよさそうだ
    • しかも、調べながら、結果として、事後分布からの標本になっているようなら、手順として楽チン
  • 実際にはどうする
    • ありえるパラメタ値(のセット)を初期値とする
    • 初期値が高尤度かどうかはわからない
    • 初期値から始めて、次の候補地を選ぶルール(*)を決める
    • 候補地は、現地点以上の尤度なら「採用」、現地点未満の尤度なら「採択することもあるし採択しないこともある」ことにする(確率的に決める)
    • こうすることで、尤度が低めのところもサンプリングするが、尤度が高めのところをより高頻度にサンプリングする
    • このサンプリングの結果がパラメタ値(のセット)の事後分布になることが知られている
    • ただし、初期値からしばらくは、「低尤度から出発」したために、どんどん高尤度の地点に移動し続けてしまって、「採択したり、不採択にしたりする」という仕組みの使い方が、「高尤度の地点から出発」した場合と異なってしまうかもしれないので、そのような標本は「初期値依存」なので使わない(捨てる)。その代り、「低尤度地点から出発」しても、そのうち、「妥当な高尤度地点」に到達するので、そこから先の標本なら、初期値非依存なので、大丈夫
  • 複数のアルゴリズム
    • (*)次の候補地を選ぶルールがいくつかある
    • 完全に現地点から近接地点に1歩とる酔歩(ヘイスティング)
    • 複数のパラメタに関する事後分布はわからない(それを今、推定している)けれど、単一パラメタについての事後分布はわかるので、その情報を使って、進むべき次の地点を確率分布に応じて選ぶ(ギブス・サンプラー)
    • 少し工夫して、酔歩をするけれど、広く探索する(ハミルトニアンモンテカルロ)