ノンパラ・ベイズ 夏休み集中セミナーメモ

  • 9月1日
  • パラとノンパラの基礎概念
    • 資料1『Parametric vs Nonparametric Models』
    • パラは有限個パラメタ、ノンパラは無限個パラメタのモデル
    • 無限個パラメタのモデルとはどういうことかをわかることが大事
    • ノンパラベイズは無限個パラメタを想定しつつ、実際には無限要素を扱わないで処理する仕組み
    • 関数近似、分類、クラスタリングなどに関して、パラとノンパラの違いをディスカッション
    • ノンパラ関数近似であるガウシアン過程による非線形回帰をディスカッション
    • ガウシアン過程回帰の補助資料
  • ノンパラ検定
  • 9月17日
  • チュートリアル
    • まずは、5分でチュートリアルから何を読み取るかを決める
      • Non-parametric Bayesian approach (NPB)の手法としての特徴を理解し
      • 基本的な方法例2つを学び
      • その基礎概念を数式レベルで理解する
    • 次にイントロダクションを短時間でまとめる
    • Mixture models and clustering
      • Finite mixture modeling
      • Chinese restaurant process
        • クラスタ数を不定にするために、クラスタ数を無限大にする
        • 前項にて、クラス多数固定の場合には、クラスタ別に割り当てられる事前確率を用いていたので、クラスタ数が無限大の場合のクラスタ別事前確率が生成できれば、前の手法を拡張できる
        • クラスタ数が無限大の場合のその事前確率分布を定める、確率過程のモデルがchinese restaurant process
        • その分布を与えるにあたり、exchangeabilityという概念を用いている
      • Chinese restaurant process mixture models
        • クラスタ数は無限だが、有限サンプルに観測されるクラス多数はサンプル数で頭打ちされており、その頭打ちされたクラスタ数の出現確率は計算できるから、それに基づけば観測クラスタ数の事後分布も含めてベイズ推定は回る
    • Latent variable model and Indian buffet process
      • 多変量解析で次元削減がしたい
      • 0,1でできた行列(列数不定)を生成する確率過程であるIndian buffet processを使うことで、削減後次元数を減らしつつ、その削減次元数を不定にしながら、説明モデルの事後分布を生成することができる

ノンパラ・ベイズ 夏休み集中セミナーメモ0

  • 予定
    • 9月1日(パラとノンパラの基礎概念。ノンパラ検定)
    • 9月17日(ノンパラ・ベイズの短いチュートリアル)
    • 9月22日(長文資料のつまみ食い。R・パイソンで遊ぶ、その1)
    • 9月24日(長文資料のつまみ食い。R・パイソンで遊ぶ、その2)
  • 参加者
    • A(統計遺伝学分野 院生): 多次元雲状データセットを説明するためのノンパラ手法を研究中
    • B(外部病院研修医 医学部生時代の分野研究参加者):タイプ数不定の頻度推定〜ディリクレ過程
    • C(京大病院研修医 医学部生時代の分野セミナー参加者):ビッグデータ型のメディカルサイエンスに興味がある=探索型データマイニングとしてのノンパラベイズに親和性
    • D(統計遺伝学分野ポスドク):軌跡解析にスムージング。スムージングとしてのノンパラアプローチ
    • E(近大産婦人科 分野提供講義受講者): オミクスを中心にデータ解析全般に興味があり、ノンパラベイズも〜
    • F(呼吸器内科院生 共同学位課程院生): オミクスを含めた量的生物学・医療ビッグデータ学徒
    • G(統計遺伝学分野 教員): 分野のテーマ指導のためを含めた複数の理由で参加

6 General Posterior Distribution 一般化した場合 ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

  • Algebraic geometric transformにより、standard form(5章の形)に持ち込めることを示す
  • p(w) = \sum Standard formとなれば、5章で示したStandard formの色々な良い性質がそのまま使える(らしい)

5 Standard Posterior Distribution 事後分布が正規分布の場合 ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

  • モデルが真の分布を含み、推定にあたり、漸近的に正規分布を想定できる場合は簡単。ベイズ推定と最尤推定とがほぼ一致するから
  • 真の分布は正規分布とはみなせないことも多く、その場合は、ベイズ推定のあてはまりがよくなる
  • p(w) \propto exp(-n w_1^{2k_1} w_2^{2k_2} ... w_d^{2k_d})と一般化できる(そうだ)
  • この章では、この表現ができるならば、free energy, generalization lossについて有用なことが証明できることを示す
  • これは、ランダム標本から、その母分布を推定するにあたり、ある確率モデルがwでパラメタライズされているときに、その推定にあたり、wの事後分布の形はこのような形(中心があって、2k_i乗的に減衰するようになっていて、しかも、標本数nによって、その事後分布の集中の良さが指定できる、という式である

3 Basic Formula of Bayesian Observables 観測量のベイズにおける基礎的な式 ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

  • (1) 真の分布と統計モデルの関係の定義をする
  • (2) 観測変数のベイズ流定義とのそのnormalized version
  • (3) ベイズ予測のキュムラント母関数の定義
  • (4) ベイズ統計の基礎的な理論事項をキュムラント母関数を用いて証明する(それにより、真の分布とモデルと予測推定の数学的基礎を定める)
  • Model は Truthの近くをカバーするけれど、必ずしもModelにTruthが含まれるわけではない
  • 各種エラー・ロス関数等は、最適解を基準にすると、パラメータ最適解を含まない関数になる。それがnormalized 関数。average and empirical log loss functionを考えることにより、ベイズ流観測変数とnormalized 観測変数とは単純な関係になる
  • キュムラント母関数を作るのだそうだ
  • 級数展開することで、各種関数の値の近似値とその精度に関する情報が解析的に示せる

1 ベイズ統計の基礎 ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

  • 真の分布の事前分布があって、それぞれがある観測をもたらす確率がわかっていれば、観測から真の分布の事後分布が計算できる、というのがベイズの定理
  • 残念ながら、事前分布も正確には解らないし、観測をもたらす確率も解っていない(のでモデルを入れる)から、答えがきっちり決まらない〜 ill-posed problem
  • 仕方がないので、方法を選んで、結果を出してみて、方法について検討する、という手順を踏んで、何かしら正しそうな推定結果に至ることになる
  • 真の分布がわからなければ、これを頑張ってもうまく行かない様に見えるが、そうではない
  • いかなる真分布・統計モデル・事前分布のトリオに対しても、ある数学的な決まりがあって、それを使うと、統計モデルと事前分布のペアの取り方の適切さについて検討できる
  • 本書はその話
  • Training Loss とGeneralization Loss
    • 標本に事前分布とモデルとをあてはめて分布推定をしたら、その推定の良さが知りたい(q(x)は真の分布、p(x|X^n)は推定分布。
      • T_n = -\frac{1}{n}\log{p(X_i|X^n): Training Loss
      • G_n = -\int q(x) \log{p(x|X^n) dx: Generalization Loss
      • G_n-S = KL(q(x)||p(x|X^n)), Sは真の分布のエントロピー。Generalization Loss からエントロピーを引いたものが、真と推定とのKL divergence。Generalization Error
      • C_n = -\frac{1}{n} \sum_{i=1}^n \log(p(X_i|(X^n -Xi)): Cross Varidation Loss (Leave-one-out type)
        • C_n - S_n: Cross Validation Error
      • Widely Applicabe Information Criterion (WAIC)
        • W_n = T_n +\frac{1}{n} \sum_{i=1}^n V_n[\log(p(X_i|w)], V_w[]はPosterior Variane
        • W_n - S_n: WAIC error
        • W_nは漸近的にCross Validation Lossに相当するという
    • Errors
      • G_n-S,C_n-S_n,W_n-S_nが3つのエラー
      • S,S_nともモデル事前分布によらない
      • Losses であるG_n,C_n,W_nよりも、エラーであるG_n-S,C_n-S_n,W_n-S_nの方が分散が小さいので、エラーを比較することも多い
    • Marginal Likelihood or Partition Function. パラメタで表された事前分布と、パラメタによって決まる個々の変数の条件付き確率分布との積に分離する
    • 条件付き独立な場合に、Cross Validation Loss ではうまく行かないことが、Widely Applicable Information Criterion(WAIC)ではうまく行くことが示せる