私の第３段階〜あらためて指数型分布族・情報幾何

ごちゃごちゃしてきて収集がつかない
これをうまく整理するには、やはり数式が必要だし、納得するには式変形を見てみる必要がある
数式とその変形を追いかけると、個々の性質の「意味」がどんどんかすんでいくので、そのあたりの折り合いをどうつけるかが課題
現在、この段階の真っただ中なので、うまく書けるか不安だが、書いてみる
確率密度関数・確率マス関数、パラメタ
- 確率変数 $\mathbf{x}$
- パラメタは取り方によっていろいろある
  - の３つとする。ただし、そのパラメタにも共通するように書きたいときには、「一般的なパラメタ」という意味でを使うことにする
    - $\theta$ は指数型表現でのパラメタ
    - $\eta$ は情報幾何で言うところの $\theta$ の双対にあたるパラメタ
    - $\xi$ は指数型にしないで、個々の分布関数の特徴をよく表したパラメタとする
    - $\theta,\eta,\xi$ はそれぞれ行き合える。 $\xi(\theta)$ と書いたら、それはパラメタ $\xi$ を $\theta$ の関数として表した、ということ
指数型関数の定義
- $\mathbf{\theta}$ を使う
- - これを少し違った形にすることもある
  - - $h(\mathbf{x}) = exp(-B(\mathbf{x})),g(\mathbf{\theta}) = exp(-A(\mathbf{\theta}))$
    - $log(h(\mathbf{x})) = -B(\mathbf{x}),log(g(\mathbf{\theta})) = -A(\mathbf{\theta})$
確率密度(マス)関数として扱う
- パラメタが与えられたものとして、指数型関数をの関数と見る
  - $\int_{\mathbf{x}} p(\mathbf{x}|\mathbf{\theta}) dx = 1$ は確率密度関数の定義
  - $exp(A(\mathbf{\theta})) = \int_{\mathbf{x}} exp(\mathbf{\theta} \cdot T(\mathbf{x}) - B(\mathbf{x}))$ となるから $\frac{1}{g(\mathbf{\theta})}=exp(-A(\mathbf{\theta}))$ は正規化項(で正の値)
  - 確率変数の値の様子について知ることができる。様子と言ったらモーメント(積率)。積率母関数は、指数型表現のによらない成分が確定する。積率母関数とその対数版であるキュムラント母関数は、それぞれ非依存成分の関数を指数として見るか、指数関数の外に出すかに対応する
    - $g(\mathbf{\theta}) = exp(-A(\mathbf{\theta}))$ は積率母関数、 $log(g(\mathbf{\theta})) = -A(\mathbf{\theta})$ はキュムラント母関数
    - この積率母関数は $T_i(\mathbf{x})$ の積率を教えてくれる。したがって $T_1(x)=x$ のような単変量のときには、いわゆる確率変数そのもののモーメントがわかることになる
    - こちらの記事にて確かめられる
    - 確率変数があったときに、パラメタのみの変更で分布の位置や縮尺のようなものが変わるが、そのときにモーメントも変わるはず。であれば、そのようなモーメントに関する情報は、パラメタのみが支配する項によらなければならないのではないか。そんなことを考えると、 $A(\mathbf{\theta})$ がモーメントに関する情報を担っていることは納得が行きやすい。そのうえで、パラメタに関する偏微分とその次数がモーメントに逐一対応する、というのは、 $\mathbf{\theta}$ が特別なパラメタであるがための恩恵に相当すると思っておけばよさそう
  - 指数型表現は、ある意味で特別な意味を持つ表現であることがわかった。 $\mathbf{x}$ のみの項が積率母関数(キュムラント母関数)を表しているのがその例。では、 $T(\mathbf{x})$ は？これは、 $\mathbf{x}$ の取り方を、特別なパラメタである $\mathbf{\theta}$ に合わせて設定した、 $\mathbf{x}$ の『あるべき姿』。 $\mathbf{\theta} \cdot T(\mathbf{x})$ は内積だが、内積というのは線形汎関数と見ることもできるように、特別な関係であって、双対的な関係にある(こちら)
  - このことから、指数型分布ではないコーシー分布の場合、積率母関数が(指数型分布のようには少なくとも)書けない、ということがわかる
尤度関数として使う
- パラメタが与えられたものとして、指数型関数をの関数と見る
  - 対数尤度関数は $log(p(\mathbf{x}|\mathbf{\theta})) = \mathbf{\theta} \cdot T(\mathbf{x}) - A(\mathbf{\theta}) - B(\mathbf{x})$
  - 最尤推定は微分して0なので $\frac{\partial}{\partial \theta_i}log(p(\mathbf{x}|\mathbf{\theta})) = 0$
  - したがってを解くのだが、これは簡単
    - このことから、指数型に書けない混合正規分布のような統計モデルのときには、簡単に最尤推定ができなくて、何か別のことをする必要が出ることもわかる
  - 尤度関数として見る、とは、 $\mathbf{x}$ は定数扱いにするということ。すると対数尤度関数は $\mathbf{\theta} \cdot T - A(\mathbf{\theta}) - C$ 。 $\mathbf{\theta}$ が張る空間での多次元曲面になっており、これが対数尤度関数の多様体
  - 多様体には、局所の曲率と局所に張り付ける座標の連なり具合(接続)を考えるのが、多様体的発想。局所曲率をフィッシャー情報量(情報行列)と言い、それは多様体にとってのリーマン曲率行列
  - 共役分布。指数型分布を１個以上の独立な観察について積み重ねることは、尤度関数を掛け合わせること。指数型関数の掛け合わせは相変わらず指数型。同じ関数を尤度関数と見るか確率密度関数と見るかで、パラメタを推定するための関数と見ることもできれば確率変数を発生させるための関数と見ることもできる。この味方の変換関係が共役な関係にある２種類の指数型分布
  - 二重平坦座標系。情報幾何では指数型関数の対数尤度関数が作る情報多様体では $\mathbf{\theta}$ がe-平坦座標系をなしていることが知られている。情報多様体の上にうまく測地線を乗せた接続のことである。他方、e-平坦座標系と双対関係にあるm-平坦座標系というものがある。これは $\mathbf{\eta}$ で表され、 $\eta_i = E(T_i(\mathbf{x}))$ の関係にある
  - 情報幾何ではエントロピーを気にする。エントロピーは $log(p)$ の平均値なので $\int p log(p)$ のこと。いずれにせよ、 $log(p)$ が大事なわけであるが、指数型分布族では、この対数確率・対数尤度が $\mathbf{\theta} \cdot T(\mathbf{x}) - A(\mathbf{\theta}) - B(\mathbf{x})$ という単純な形をしている。このように表現できることから、 $log(p)$ の多様体が $\theta$ に関してアフィンになっている(こともわかるという)。実際には多数の観察がもたらす尤度を問題にするのだが、 $log(p)$ ベースで行うときは、ただの加算(アフィン)になる
  - 情報幾何では、指数型分布族にも混合型分布族にも、離散にも連続にもあてはまるルールがある(この記事では、指数型分布族の表現が情報幾何でのe平坦座標を考えるのに有用だったので、両方を扱ってきた)
    - n個の値を取りうる確率分布を考える。連続分布の場合にはnは無限大。そのときある値を基準にして、そのほかの値の生起確率を基準値の生起確率に対する比でとり、その対数をとったものが $\mathbf{\theta}$ パラメタ、生起確率そのものを取ったものを $\mathbf{\eta}$ パラメタと取る。エントロピーが定義できて、KLダイバージェンスもとれる。KLダイバージェンスに対してピタゴラスの定理が成立し、射影も定義できる。エントロピー関数の２階微分がフィッシャー情報量になる(こちら)
  - ただし、指数型分布族はやはり好ましい性質を持っており、指数関数型で表した時のパラメタ $\mathbf{\theta}$ を使うと、対数尤度関数が平坦になっている(e-平坦)、また、いつも双対平坦になっており $\eta_i = E(T_i(\mathbf{x}))$ がそれ
  - 検定は情報多様体上の観測点(それはフルモデルの中にある）を部分多様体(部分モデルの設定の仕方によって変わってくる)上の点に対応付けること。それは、一次近似をするだけなら、局所の接空間の話になり、その接空間は尤度関数全体が決めるから、部分モデルの取り方によらず、精度は一定。もし、それよりも細かいことを問題にすると曲面を考えることになるが、曲面を考えるためには曲率が必要で、曲率を考えるときには接続を考慮しないと、観測点と部分も出る点との遠近関係が言えなくなるし、接続の取り方によって、最近点は変わってくる。同じ観測データに対して、実際、２次の近似をするときには、その誤差の遠近は、e曲率とm曲率と、部分も出るのパラメタの取り方が産む曲がり具合(曲率)とに分解できる。e曲率は共通だし、m曲率も知りたいことは同じなので、共通で、最後のパラメタの取り方による曲率というのが、検定手法依存の項になる。ちなみに最尤推定というのは、この部分モデルのパラメタの取り方による曲率をm曲率に一致させる方法なのだという。世の中で通用している検定は、１次の近似までは同じで、ばらつきが一緒。２次の項は方法によって、どういうときに大きくなりがちで、どういうときに小さくなりがちかに差が出てくる。それは手法の得手不得手の情報幾何学的説明となる