確率分布の存在空間。ぱらぱらめくる『Information Geometry on Hierarchy of Probability Distributions』

  • Information Geometry on Hierarchy of Probability Distributions
  • I. Introduction
    • (あまたある)確率分布が構成する階層構造をInformation geometryという考え方で多様体構造として表現することを目的とする
    • 確率変数同士の関係が見えてくる(独立であるとかそうでないとか、独立(らしき)変数に分解するとか)
  • II. Information Geometryの導入的基礎
    • 多様体、曲線、直交
      • 確率分布を多様体とみなす
        • 確率分布がパラメタ表現されているとする
        • そのパラメタを動かすと、「同じパラメタ表現」を持つ、いろいろな確率分布が作れる
        • そのパラメタの値によってできる確率分布の集まりを、パラメタ数の軸をもつ空間に対応づける
        • こうすることで確率分布の集合がパラメタ数nに関してn次元多様体とみなせる
          • ここがちょっと怪しいのだが『複数の確率変数同士には相互に依存・制約関係で結ばれているものがあり(カテゴリ別の確率が正単体をなすように)、それらは多様体を構成する』ということかもしれない
          • 座標系のすべての点に分布が対応しているので、「多様体」と言っても、限定した図形にはなっていない。翻って、この「座標系全体であるところの多様体」のうちの一部・局所を問題にすることもあり、その場合には、確率分布の部分集合が「全体の多様体の一部としての多様体」としてあらわれてくる。したがって、「ちょっと怪しい」と書いたが、両方の意味を持っている、ということでよいようだ
      • 確率分布の多様体にはフィッシャー情報行列が定義できて、これは、うまいことできた確率密度分布集合のときには、「内積が定義されて接ベクトル空間について実微分が可能であって…」というようなこととなり、これは「リーマン多様体」になるし、フィッシャー情報行列はリーマン計量テンソルのこととなる
      • リーマン多様体では、相互に近い点同士では、距離がうまく扱えるので確率分布間の距離もうまく扱える。この距離はさきほどのフィッシャー情報行列〜リーマン計量テンソル〜で定義できるが、それはまた、確率分布間の違いの定義(の一つである)Kullback-Leibler divergenceであることも示せる
      • 確率分布集合が曲線(という多様体)になっているとき
        • こうすると、あまたある確率分布のうち、その曲線の定義に従う確率分布の亜集合が定まり、また、曲線上を移動することを考えると、この亜集合には順序が入っている
        • 一般に、曲線を考えるとき、曲線をパラメタ表現して、そのうえで、接ベクトルと、接ベクトルのパラメタ微分とを考慮することがある
        • 確率分布の亜集合としての曲線についてもそのように考える(接ベクトルがとれて微分できるのは上述したようにリーマン多様体の条件を満たす場合)
        • 確率分布の亜集合である曲線が複数あるとき、それらはある点で交叉するかもしれない。その交叉の特徴として「直交」するかどうかは、大事であろうと思われるが、その定義を内積=0とすると(内積がとれるのもリーマン多様体の条件を満たしているから)、「曲線としての直交」=「2曲線が表している分布〜スコア〜の無関係性」という関係にあることがわかる
    • 二重に平らな多様体 e-flat & m-flat
      • 確率密度関数の中に、p(x,\bf{\theta})=exp(\sum\theta_i k_i(x) - \phi(\bf{\theta}))という形に書ける一群がある。指数関数族と呼ばれ、\bf{\theta}の与え方によって、見慣れた確率分布の多くがこれに属することがわかる→こちら