ぱらぱらめくる『情報幾何の基礎概念』

  • わかりやすいオーバービューをまず読んでからにしよう
  • こちらこれから始める
  • イントロ
    • 情報幾何はある程度幅のある概念
    • 個々の確率分布(あるいは確率構造)を点とする空間を考えること、そこで微分幾何を用いること、という緩いくくりはある
    • その空間に何があるかというと(何が置けてもそれは情報幾何の対象になるわけだが、もっとも基本的かつ重要なのは)、『フィッシャー計量〜リーマン計量』と『α-接続』の2つ
      • 『計量』は「長さ・大きさを量としてあらわすこと」
      • 『接続』は「うまいこと動かす方法(動かしたら入れ替わったり交叉したりすると大変なので、そうならないような意味での『平行移動』)のこと」。そんなものなので、その『動き方』について『まっすぐ』とか『曲がっている』とかが重要になる。(接続を「表す」必要があってそこにテンソルとかが出てくる。大きさと向き(ベクトル)的なものなので、(計量が内積的であるのに対して)接続は外積的、かな?→クリストッフェル記号
    • 統計学〜情報幾何〜情報理論〜確率論という結びつき
  • 統計多様体と指数分布族
    • 確率分布・確率密度分布(の多く)は指数関数で表せる
    • 指数関数で表したものは対数をとると便利
    • Fisher情報行列
      • まず、導入された
      • その後いろいろ考えると、よくできたものであることがわかった
      • (本質的な性質を持つので)定義の仕方もいろいろにな(りう)る
      • 基本的には、パラメタのペアワイズな関係の行列表現であり、
      • 期待値として定まっている
      • あっちこっちでいろいろな式が出るけれど、\frac{d \log(f(x))}{dx}f(x) = \frac{d f(x)}{dx}とか(の偏微分版)、E[f(x)] = \int f(x) p(x) dxに注意して式変形すると導出できる
      • 確率分布p_{\theta}を点とみなすのが情報幾何だけれど、その平方根を取って2\sqrt{p_{\theta}}を座標とする点とみなすようなことをすると、これは、\{p_{\theta}\}を半径2の球面に配置することで、フィッシャー情報行列の成分がg_{ij} = 4\int \frac{\partial}{\partial \theta^i} \sqrt{p_{\theta}} \frac{\partial}{\partial \theta^j} \sqrt{p_{\theta}} d\muとなって、『球面』上の分布に関して、軸ペアに関して積分したもの、というきれいな値になっていることもわかる
      • こんなにシンプルなものなので、変数の取り方によらなかったりするのは当然に見える
        • ここに『半径2の球面』と『2』が出てくるのが、尤度比検定で対数尤度比に2をかける理由、かな?と思う
    • α-接続
      • アフィン接続⇔共変微分⇔接続係数⇔接続係数とフィッシャー計量とを組み合わせたもの
      • アフィン接続
      • 多様体上の点に接空間をとる。別の点にも接空間を取る。その接空間に滑らかな移行関係がある。すると接空間をすぐ近くの接空間に移すこともできて接空間を定めるベクトル(接ベクトル)の間で微分ができることになる。そんな移行関係を「アフィン接続」という
      • リーマン計量があると自然な(自明な?)アフィン接続があるのだが、リーマン計量とフィッシャー計量は同じだから、フィッシャー計量のある統計多様体にもアフィン接続がある
      • アフィン接続は接ベクトルを平行移動してくれる
      • α-接続
        • アフィン接続をある式表現で表し、そのときにαという定数を持ち込む。この式で表される接続をα-接続と言う
        • α-接続はαの値で分類することができて、αが0のときはリーマン接続、αが1のときがe-接続。αに対して (-α)で対応づけられる接続が双対接続で、α=1に対する双対接続であるα=(-1)の接続がm-接続
        • e-接続は指数分布族と関係し、m-接続は混合分布属と関係する
  • さて、確率分布・確率密度分布と情報幾何、再び
    • 確率分布・確率密度分布は空間の点
    • どのように点をとるかは座標系による
    • 座標系による、とは、パラメタの取り方をどうするか、ということ
    • 座標系の取り方によらず「分布」は存在している
    • 座標系の取り方によらずフィッシャー情報行列は定まっている
    • 分布をどういう多様体で表すかはパラメタの取り方による
    • どうせとるなら、扱いやすいパラメタの取り方がよい
    • 多様体上での動き〜接ベクトルの動きが扱いやすいのがよい
    • 接ベクトルの動きが扱いやすいとは「平坦」であること
    • 確率分布の平坦には双対関係にある2つの平坦e-平坦とm-平坦とが登場する
    • 結局、確率分布を情報幾何的に定めるというのは、『計量』としてフィッシャー情報行列を定めることと、『接続』としての具合のよいものを取ることである、となる。『接続』は双対関係の2つの接続があるので、片方を定めれば決まるのだが、両方を見える形にして置いておく方がわかりやすい(ことも多いので)、『フィッシャー情報行列』『e-接続』『m-接続』の組で定めましょう。そのうえでいろいろな検討をしましょう、と言うこと。