6 General Posterior Distribution 一般化した場合 ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

  • Algebraic geometric transformにより、standard form(5章の形)に持ち込めることを示す
  • p(w) = \sum Standard formとなれば、5章で示したStandard formの色々な良い性質がそのまま使える(らしい)

5 Standard Posterior Distribution 事後分布が正規分布の場合 ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

  • モデルが真の分布を含み、推定にあたり、漸近的に正規分布を想定できる場合は簡単。ベイズ推定と最尤推定とがほぼ一致するから
  • 真の分布は正規分布とはみなせないことも多く、その場合は、ベイズ推定のあてはまりがよくなる
  • p(w) \propto exp(-n w_1^{2k_1} w_2^{2k_2} ... w_d^{2k_d})と一般化できる(そうだ)
  • この章では、この表現ができるならば、free energy, generalization lossについて有用なことが証明できることを示す
  • これは、ランダム標本から、その母分布を推定するにあたり、ある確率モデルがwでパラメタライズされているときに、その推定にあたり、wの事後分布の形はこのような形(中心があって、2k_i乗的に減衰するようになっていて、しかも、標本数nによって、その事後分布の集中の良さが指定できる、という式である

3 Basic Formula of Bayesian Observables 観測量のベイズにおける基礎的な式 ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

  • (1) 真の分布と統計モデルの関係の定義をする
  • (2) 観測変数のベイズ流定義とのそのnormalized version
  • (3) ベイズ予測のキュムラント母関数の定義
  • (4) ベイズ統計の基礎的な理論事項をキュムラント母関数を用いて証明する(それにより、真の分布とモデルと予測推定の数学的基礎を定める)
  • Model は Truthの近くをカバーするけれど、必ずしもModelにTruthが含まれるわけではない
  • 各種エラー・ロス関数等は、最適解を基準にすると、パラメータ最適解を含まない関数になる。それがnormalized 関数。average and empirical log loss functionを考えることにより、ベイズ流観測変数とnormalized 観測変数とは単純な関係になる
  • キュムラント母関数を作るのだそうだ
  • 級数展開することで、各種関数の値の近似値とその精度に関する情報が解析的に示せる

1 ベイズ統計の基礎 ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

  • 真の分布の事前分布があって、それぞれがある観測をもたらす確率がわかっていれば、観測から真の分布の事後分布が計算できる、というのがベイズの定理
  • 残念ながら、事前分布も正確には解らないし、観測をもたらす確率も解っていない(のでモデルを入れる)から、答えがきっちり決まらない〜 ill-posed problem
  • 仕方がないので、方法を選んで、結果を出してみて、方法について検討する、という手順を踏んで、何かしら正しそうな推定結果に至ることになる
  • 真の分布がわからなければ、これを頑張ってもうまく行かない様に見えるが、そうではない
  • いかなる真分布・統計モデル・事前分布のトリオに対しても、ある数学的な決まりがあって、それを使うと、統計モデルと事前分布のペアの取り方の適切さについて検討できる
  • 本書はその話
  • Training Loss とGeneralization Loss
    • 標本に事前分布とモデルとをあてはめて分布推定をしたら、その推定の良さが知りたい(q(x)は真の分布、p(x|X^n)は推定分布。
      • T_n = -\frac{1}{n}\log{p(X_i|X^n): Training Loss
      • G_n = -\int q(x) \log{p(x|X^n) dx: Generalization Loss
      • G_n-S = KL(q(x)||p(x|X^n)), Sは真の分布のエントロピー。Generalization Loss からエントロピーを引いたものが、真と推定とのKL divergence。Generalization Error
      • C_n = -\frac{1}{n} \sum_{i=1}^n \log(p(X_i|(X^n -Xi)): Cross Varidation Loss (Leave-one-out type)
        • C_n - S_n: Cross Validation Error
      • Widely Applicabe Information Criterion (WAIC)
        • W_n = T_n +\frac{1}{n} \sum_{i=1}^n V_n[\log(p(X_i|w)], V_w[]はPosterior Variane
        • W_n - S_n: WAIC error
        • W_nは漸近的にCross Validation Lossに相当するという
    • Errors
      • G_n-S,C_n-S_n,W_n-S_nが3つのエラー
      • S,S_nともモデル事前分布によらない
      • Losses であるG_n,C_n,W_nよりも、エラーであるG_n-S,C_n-S_n,W_n-S_nの方が分散が小さいので、エラーを比較することも多い
    • Marginal Likelihood or Partition Function. パラメタで表された事前分布と、パラメタによって決まる個々の変数の条件付き確率分布との積に分離する
    • 条件付き独立な場合に、Cross Validation Loss ではうまく行かないことが、Widely Applicable Information Criterion(WAIC)ではうまく行くことが示せる

ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

  • Prefaceより
    • (1) 3つ組(真の分布、統計モデル、事前分布)の間の関係を任意の場合について取り扱えるような枠組みが欲しい
    • (2) それにより、真の分布が不明な時にも、統計モデルと事前分布とのペアの適切さについて評価できるようにしたい
    • (3) さらにその結果、統計モデルと事前分布ペアとのペアの最適なものを選んでベイズ推定に使えるようにしたい
    • 従来は、事後分布に正規分布を仮定することによって、どんな統計モデルにどんな事前分布を取るかを決めていたが、もっと現実に即したものにしたい
  • 目次
  • 細目次
    • 1 ベイズ統計の基礎
      • 1.1 ベイズ統計
      • 1.2 確率分布
      • 1.3 真の分布
      • 1.4 モデル、事前分布、事後分布
      • 1.5 事後分布の例
      • 1.6 推定と一般化("Generalization loss")
      • 1.7 Marginal LikelihoodとPartition Function
      • 1.8 条件付きで独立な場合
    • 2 統計モデル
    • 3 観測量のベイズにおける基礎的な式
      • 3.1 真とモデルとの関係の定式化
      • 3.2 Normalized Observables
      • 3.3 キュムラント母関数
      • 3.4 基本的なベイズ理論
    • 4 真の分布と事後分布とが合っている場合
      • 4.1 Partitio FunctionのDivision
      • 4.2 漸近的な自由エネルギー
      • 4.3 漸近的な損失
      • 4.4 Asymptotic Expansionsの証明
      • 4.5 点推定
    • 5 事後分布が正規分布の場合
      • 5.1 標準的な式
      • 5.2 State Density Function
      • 5.3 Asymptotic Free Energy
      • 5.4 Renormalized Posterior Distribution
      • 5.5 条件付きで独立な場合
    • 6 一般化した場合
      • 6.1 ベイズ分解(Bayesian Decomposition)
      • 6.2 Resolution o Singularities
      • 6.3 General Asymptotic Theory
      • 6.4 Maximum A Posteriori Method
    • 7 MCMC
    • 8 情報量基準
      • 8.1 モデル選択
      • 8.2 ハイパーパラメタの最適化
    • 9 各論
      • 9.1 最適とは
      • 9.2 ベイズによる仮説検定
      • 9.3 ベイズによるモデル比較
      • 9.4 Phase Transition
      • 9.5 Discovery Process
      • 9.6 階層ベイズ
    • 10 確率論の基礎事項
      • 10.1 デルタ関数
      • 10.2 Kullback-Leibler Divergence
      • 10.3 Probability State
      • 10.4 Empirical Process
      • 10.5 Convergence of Expected Values
      • 10.6 ディリクレ過程の混合

ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

  • Prefaceより
    • (1) 3つ組(真の分布、統計モデル、事前分布)の間の関係を任意の場合について取り扱えるような枠組みが欲しい
    • (2) それにより、真の分布が不明な時にも、統計モデルと事前分布とのペアの適切さについて評価できるようにしたい
    • (3) さらにその結果、統計モデルと事前分布ペアとのペアの最適なものを選んでベイズ推定に使えるようにしたい
    • 従来は、事後分布に正規分布を仮定することによって、どんな統計モデルにどんな事前分布を取るかを決めていたが、もっと現実に即したものにしたい
  • 目次
    • 1 Definition of Bayesian Statistics
    • 2 Statistical Models
    • 3 Basic Formula of Bayesian Observables
    • 4 Regular Posterior Distribution
    • 5 Standard Posterior Distribution
    • 6 General Posterior Distribution
    • 7 Markov Chain Monte Carlo
    • 8 Information Criteria
    • 9 Topics in Bayesian Statistics
    • 10 Basic Probability Theory

固有値分解する

n <- 100
X <- matrix(rnorm(n*2),ncol=2)
Y <- X %*% c(1,2) + rnorm(n,0,0.01)
library(rgl)

plot3d(X[,1],X[,2],Y)

lm(Y ~ X-1)

XY <- cbind(X,Y)
M <- t(XY) %*% XY

eigenout <- eigen(M)

eigenout[[2]]

eigenout[[2]][,3]/(-eigenout[[2]][3,3])