1 ベイズ統計の基礎ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

真の分布の事前分布があって、それぞれがある観測をもたらす確率がわかっていれば、観測から真の分布の事後分布が計算できる、というのがベイズの定理
残念ながら、事前分布も正確には解らないし、観測をもたらす確率も解っていない(のでモデルを入れる)から、答えがきっちり決まらない〜 ill-posed problem
仕方がないので、方法を選んで、結果を出してみて、方法について検討する、という手順を踏んで、何かしら正しそうな推定結果に至ることになる
真の分布がわからなければ、これを頑張ってもうまく行かない様に見えるが、そうではない
いかなる真分布・統計モデル・事前分布のトリオに対しても、ある数学的な決まりがあって、それを使うと、統計モデルと事前分布のペアの取り方の適切さについて検討できる
本書はその話
Training Loss とGeneralization Loss
- 標本に事前分布とモデルとをあてはめて分布推定をしたら、その推定の良さが知りたい(は真の分布、は推定分布。
  - $T_n = -\frac{1}{n}\log{p(X_i|X^n)$ : Training Loss
  - $G_n = -\int q(x) \log{p(x|X^n) dx$ : Generalization Loss
  - $G_n-S = KL(q(x)||p(x|X^n))$ , Sは真の分布のエントロピー。Generalization Loss からエントロピーを引いたものが、真と推定とのKL divergence。Generalization Error
  - : Cross Varidation Loss (Leave-one-out type)
    - $C_n - S_n$ : Cross Validation Error
  - Widely Applicabe Information Criterion (WAIC)
    - $W_n = T_n +\frac{1}{n} \sum_{i=1}^n V_n[\log(p(X_i|w)], V_w[]$ はPosterior Variane
    - $W_n - S_n$ : WAIC error
    - $W_n$ は漸近的にCross Validation Lossに相当するという
- Errors
  - $G_n-S,C_n-S_n,W_n-S_n$ が３つのエラー
  - $S,S_n$ ともモデル事前分布によらない
  - Losses である $G_n,C_n,W_n$ よりも、エラーである $G_n-S,C_n-S_n,W_n-S_n$ の方が分散が小さいので、エラーを比較することも多い
- Marginal Likelihood or Partition Function. パラメタで表された事前分布と、パラメタによって決まる個々の変数の条件付き確率分布との積に分離する
- 条件付き独立な場合に、Cross Validation Loss ではうまく行かないことが、Widely Applicable Information Criterion(WAIC)ではうまく行くことが示せる