ぱらぱらめくる『エントロピーの幾何学』

目次

まえがき

  • 指数型分布族だけでなく非指数型分布族が実用上重要な場面が出てきた。また、非指数型分布族を使ってもうまく動くモデル・アルゴリズムの整備も進んできた
  • 非指数型分布族を利用した手法を理解するために、測度論的確率論は必要。パラメトリックモデルと十分統計量もわかっておきたい
  • 指数型分布族を用いた確率モデルには情報幾何があり、そこには、二重平坦座標系がある
  • 非指数型分布族についてはこれだという幾何学は定まっていない
  • 非指数型分布族の幾何学の例として\tau-情報幾何学と称するものを紹介するのが本書の目的
  • 情報幾何学では\alpha = \pm 1というパラメタが重要で双対接続と関係する
  • その\alphaと対応するのが\tau=1,0だが、この\tauは確率分布族を決定し、エントロピーダイバージェンスも決定する

第1章 本書の構成

  • 第2章:測度論的確率論の基本、その用語の確認
  • 第3章:測度空間に平行移動を導入。\tau-アファイン構造を持たせる。非指数型分布族が扱えることが見えてくる。BodyとSoulという概念を導入
  • 第4章:平行移動導入の副作用である、測度の大きさの非保存に対して、平行移動のやり方によって座標の更新のやり方を調整するという方法を使う
  • 第5章:BodyとSoulからRealを導く「縮約」操作。Fisher計量が導かれる
  • 第6章:エントロピーを定義する。くり込みを用いて定義する。いわゆる情報幾何学ではエントロピーが指数型分布族のポテンシャル関数と密接な関係にあることにも特徴があるが、\tau-情報幾何学では、エントロピーをべき型拡張してあり、ポテンシャルとの関係が変わってくる
  • 第7・8章:具体例。q-正規分布
  • 第9章:べき型の対数関数とその性質
  • 第10章:エントロピーを共形エントロピーとしてとらえて、いわゆるエントロピーと異なる振る舞いをしているものを、扱う方法を説明する
  • 第11章:エントロピーの扱いで用いたスケール変換で用いるパラメタを座標とみなすことで、ホログラフィー原理としてとらえる
  • 第12章:一般化平均としての\tau-平均

第2章 測度と確率

  • 試行、事象、根源事象、全事象、空事象、\sigma-加法族、可測関数、確率変数、可測空間、測度、測度空間、ボレル\sigma加法族、ルベーグ測度
  • 集合があって、どのように足し合わせをするかの位相があると、可測空間。そこにここはこのくらいの重みがあるよ、という測度を入れると測度空間になる

第3章 \tau-アファイン空間~積・商・指数関数・対数関数の一般化

  • 演算の冪型拡張
    • 積は(f^{1-\tau} + g^{1-\tau} -1)^{\frac{1}{1-\tau}}
      • 普通の積は、\tau = 1の場合。極限として定義される(\frac{1}{1-\tau}があるから
    • 商(f/gに対応する商)は(f^{1-\tau} - g^{1-\tau} +1)^{\frac{1}{1-\tau}}
    • 指数関数はexp_\tau(u) = (1+(1-\tau)u)^{\frac{1}{1-\tau}}
    • 対数関数はln_\tau(x) = \frac{1}{1-\tau} (x^{1-\tau}-1)
      • 指数関数の積は1通りだが、対数関数の積は2通りの表現を持つ(が、値は同じ?)
        • ln_\tau(u_1 u_2) = u2^{1-\tan} ln_\tau(u1) + u_1^{1-\tau} ln_\tau(u2) -(1-\tau) ln_\tau(u_1) ln_\tau(u2)
        • ln_\tau(u_1 u_2) = ln_\tau(u1) + ln_\tau(u2) +(1-\tau) ln_\tau(u_1)ln_\tau(u2)
      • この非1通り性が、エントロピーの非加法性の素になる


f:id:ryamada22:20190627082848j:plain
f:id:ryamada22:20190627082855j:plain

  • \tau-アファイン構造
    • いわゆるアファイン空間は、集合にベクトルを加える操作を許して作る空間。加えるベクトルたちはいわゆるベクトル空間をなしている
    • ベクトルを加えることを平行移動と言う。平行移動した先も、元の集合の要素
    • 集合の要素にベクトルを加えることで任意の集合の要素に移動できるようにすれば、集合のすべての要素は、ある一つの要素とベクトルとの和としみなせる
    • ベクトル空間の部分空間によって移動できる要素は、元の集合の部分集合。これがアファイン部分空間
    • 平行移動(ベクトルを加える)と言ってきたが、実際には、ベクトルuによる平行移動として、冪型拡張した指数関数(exp_\tau(u))を掛ける(冪型積をとる)こととする(いかにも、「確率密度分布、指数型分布族の拡張っぽい話になってきた)
    • 平行移動した後、測度の変化が起きるが、それを座標の変化に吸収させる操作などを使う
  • 尤度関数、対数尤度関数、スコア関数(対数尤度関数の偏微分)も、冪型拡張の仕掛けで記載が可能になる
  • \tau-アファイン構造とその共役空間としてs=(1-\tau)-アファイン構造というものを定めると、両者には双対空間と言う関係が
  • この共役関係・双対関係の片方にSoul、もう片方にBodyと言う名前がついている
  • SoulとBodyとを縮約操作するとRealと言うものが現れるという

第4章 経路順序確率

  • \tau-アファイン構造では、始点と終点が決まると平行移動量が一意に決まる
  • そのベクトルに沿った経過点を経た多段階平行移動という概念もありえる
  • 確率分布を指定する座標の変換ルールとして、経路上の逐次変換が定められることが示せる

第5章 縮約と計量

  • 共役関係にあるSoulとBodyでの量を単純に掛けて、確率変数について積分すると、通常の意味でのFisher 情報量が出る
  • この演算を縮約と定義する
  • この定義によって得られるFisher計量には、ミンコフスキーの行列のように、負の対角成分が現れる

第6章 くりこみとエントロピー

  • 通常のエントロピーは負の対数尤度の期待値
  • くり込みは計算結果が無限大に発散してしまうのを防ぐ数学的な技法であり、場の量子論で使われる
  • くり込みを使って、\tau-アファイン構造でのエントロピーの発散を抑える
  • BodyとSoulとがあるので、エントロピーもそれぞれに定まる
  • ダイバージェンスもBodyとSoulとでそれぞれ定まる
  • ダイバージェンスは確率分布間の平行移動量に関する2次以上の近似誤差として表現される(分布を平行移動したらそのまま同じであってもよいはずだが、分布が形を変える。その変化量の1次の差は(多分、平行移動そのものがもたらす違いなので)分布の違いには影響せず、分布としての違いは2次以上の差となる、という話なのだろう

第7章以降、省略