確率分布の存在空間。ぱらぱらめくる『Information Geometry on Hierarchy of Probability Distributions』
- Information Geometry on Hierarchy of Probability Distributions
- I. Introduction
- (あまたある)確率分布が構成する階層構造をInformation geometryという考え方で多様体構造として表現することを目的とする
- 確率変数同士の関係が見えてくる(独立であるとかそうでないとか、独立(らしき)変数に分解するとか)
- II. Information Geometryの導入的基礎
- 多様体、曲線、直交
- 確率分布を多様体とみなす
- 確率分布がパラメタ表現されているとする
- そのパラメタを動かすと、「同じパラメタ表現」を持つ、いろいろな確率分布が作れる
- そのパラメタの値によってできる確率分布の集まりを、パラメタ数の軸をもつ空間に対応づける
- こうすることで確率分布の集合がパラメタ数nに関してn次元多様体とみなせる
- 確率分布の多様体にはフィッシャー情報行列が定義できて、これは、うまいことできた確率密度分布集合のときには、「内積が定義されて接ベクトル空間について実微分が可能であって…」というようなこととなり、これは「リーマン多様体」になるし、フィッシャー情報行列はリーマン計量テンソルのこととなる
- リーマン多様体では、相互に近い点同士では、距離がうまく扱えるので確率分布間の距離もうまく扱える。この距離はさきほどのフィッシャー情報行列〜リーマン計量テンソル〜で定義できるが、それはまた、確率分布間の違いの定義(の一つである)Kullback-Leibler divergenceであることも示せる
- 確率分布集合が曲線(という多様体)になっているとき
- こうすると、あまたある確率分布のうち、その曲線の定義に従う確率分布の亜集合が定まり、また、曲線上を移動することを考えると、この亜集合には順序が入っている
- 一般に、曲線を考えるとき、曲線をパラメタ表現して、そのうえで、接ベクトルと、接ベクトルのパラメタ微分とを考慮することがある
- 確率分布の亜集合としての曲線についてもそのように考える(接ベクトルがとれて微分できるのは上述したようにリーマン多様体の条件を満たす場合)
- 確率分布の亜集合である曲線が複数あるとき、それらはある点で交叉するかもしれない。その交叉の特徴として「直交」するかどうかは、大事であろうと思われるが、その定義を内積=0とすると(内積がとれるのもリーマン多様体の条件を満たしているから)、「曲線としての直交」=「2曲線が表している分布〜スコア〜の無関係性」という関係にあることがわかる
- 確率分布を多様体とみなす
- 二重に平らな多様体 e-flat & m-flat
- 多様体、曲線、直交