ぱらぱらめくる『Algebraic Geometry and Statistical Learning Theory』

Algebraic Geometry and Statistical Learning Theory (Cambridge Monographs on Applied and Computational Mathematics)

Algebraic Geometry and Statistical Learning Theory (Cambridge Monographs on Applied and Computational Mathematics)

  • イントロを日本語で(こちら(初めてのベイズ学習))
  • その講義資料版『学習モデルとその数理』(こちら)
  • 学習=統計的推測
    • 情報源からたくさんのサンプルが得られたときに、情報源について推測すること
      • サンプル、データ、学習例
  • 情報源の確率密度分布が学習・統計的推測の目標
    • 情報源の確率密度分布は、事前確率密度分布に確率モデルを掛けたもの
    • 確率モデルは事前確率密度分布に作用して、情報源の確率密度分布をもたらす「関数」
  • 事後確率密度関数
    • サンプルを観察する事前確率に対応する尤度が計算できる
    • 事後確率密度関数はこの尤度の分布に比例する
    • 確率密度関数にするためには、正規化定数が必要で、この正規化定数を周辺尤度とか証拠(エビデンス)と呼ぶ。分配関数とも呼ばれる
  • 情報源の真の分布と予測分布
    • サンプルを観察した下での事後確率密度で確率モデルを均すと、次の観察はこうなるだろうという分布が得られる。これを予測分布という
    • 予測分布は情報源の真の分布と似ているだろう、と推測する
  • 正規化定数・周辺尤度・証拠・分配関数とその対数
    • 分野によって、対数周辺尤度と呼ばれたり、Beyes description length、と呼ばれたり、確率的複雑さと呼ばれたり、自由エネルギーと呼ばれたりする
  • ベイズ推測は「確率モデル」と「事前分布」のペアをモデルとする推測
    • 双有理不変な推測法(2つのもののペアを推測するにあたって、いろいろなペアを取ることができるとする。そのときにペアの取り方によらずに(不変な)量があるときに、双有理不変量と言う→こちら)
    • どうせなら、解析しやすいペアにしてしまえ、と「ブローアップ」する、「トーリック改変」する
    • 推測なので、誤差がある。誤差を小さくすることと、自由エネルギーを小さくすることは強い関係にある(が等価ではない)
    • ベイズ推測は、サンプル数がすくなかったり、フィッシャー情報行列の固有値に0がある場合など(これが、singularと言うこと???)に強みを発揮する。また、階層構造モデル・隠れ変数モデルでの推測にもメリットがある。ここで言う「強み」「メリット」は、「漸近性のよさ」を持つ、ということ(たぶん)
    • ペア推定で、どれを選んだらよいか決まらないとき…周辺尤度・証拠の値を基準にすることがあり、そのやり方に手法名がついている(経験ベイズ法、タイプ2最尤法)
  • 『確率的複雑さの最小化』と『平均汎化誤差の最小化』は両立しない〜『データから最も確からしいモデルと事前分布のペア』は『平均汎化誤差を最小にすると期待されるモデルと事前分布のペア』と一致しない〜『知識の発見』と『最良の予測』とは両立しない
  • ここでこの不一致について「情報科学者」は納得し、「物理学者」は納得せず、「生物学・環境学・経済学者」はその中間か、との記載がある…
    • それは、扱っている対象に対する認識の違いなのか、対象によらない、世界観の違いなのか…
    • 分布は「きれいじゃないのが当然」と思うか「きれいなのが当然」と思うかの違いか。この「きれい」に「ゆらぎ」が入るのか入らないのか、「浮動〜ドリフト(の結果)」は入るのか入らないのか…
  • 実現可能・実現不可能