メモ

  • 確率密度関数⇔特性関数 (フーリエ変換、双対、E[e^{itx}])
  • キュムラント母関数は、2つの定義(こちら)
    • \log { E[e^{tx}]} 積率母関数の自然対数
    • \log { E[e^{itx}]} 特性関数の自然対数
    • いずれも、確率変数のモーメントを保持している
  • 指数型分布族の場合、log-partition 関数(正規化項に対する関数,\psi(\theta))は、キュムラントの性質を持つ(こちら)
    • P(x|\theta) = exp^{C(x) + \sum F(x)_i \theta_i - \psi(\theta)と書けるが、
    • \frac{\partial^n \psi(\theta)}{\partial \theta_i ^n} =E[F(x)_i^n]
    • また、情報幾何的に、\theta座標系に対応する\eta座標系は\eta_i = E[F(x)_i]
  • (おそらく)E[e^{it F_j(x)}|\theta] = \int e^{it F_j(x)} exp^{C(x) + \sum F(x)_j \theta_j - \psi(\theta)}dx = e^{\psi(\theta + i t) - \psi(\theta)}となっており、これは、\psi(x)F_j(x)の特性関数
    • E[e^{i\sum t_j F_j(x)}|\theta] = \int e^{i \sum t_j  F_j(x)} exp^{C(x) + \sum F(x)_j \theta_j - \psi(\theta)}dx = e^{\psi(\theta + i t) - \psi(\theta)}
  • 一方、確率変数のカーネル平均も確率変数のモーメント母関数(モーメントを保持している関数のことであって、モーメント母関数ではなくて、特性関数か?)になっているそうである(こちら)
  • カーネルK(x,y) = e^{xy}のとき、カーネル平均はE[e^{tX}]となり、これはまさに確率変数Xのモーメント母関数。ただしこのカーネルは、xとyとの違いに応じて値が決まる関数ではないので、いわゆる、分布の異同を考えるときのカーネルとしては不具合がある。ただし、二つの分布が斉しいかどうかは、すべてのモーメントが同じかどうかで判定ができるし、特性関数が同じかどうかで判定ができることからもわかるように、カーネルがモーメントの無限級数に対応していること、分布がそのような1つの関数に1対1対応することの意味はこの例からもわかる
  • 実際、分布の違いを考えるときのカーネルはガウシアンカーネルK(x,y) = e^{-\frac{||x-y||^2}{2\sigma^2}}のようなものであるが、これに対応するE[\Psi(x)] = Ek[(.,X)]はモーメントに関する無限級数列として書けることから、2つの分布の違いを考えるのに好適なカーネルである
  • また、カーネルガウスカーネルのように無限回の微分ができるものを使えば、すべての分布を完璧に記述できる(無限次元パラメタ化〜ノンパラメトリック)のに対し、多項式カーネルは有限回しか微分ができないので、その範囲での異同しか表せない
  • ここまでE[e^{tX}]と、モーメント母関数で話をしてきたが、モーメントがあるかどうかの心配をするなら、特性関数E[e^{itX}]を使っておき、それにモーメント情報・分布の一意性情報を持たせるのがよさそう(こちら)
  • ガウシアンカーネルK(x,y) = e^{-\frac{||x-y||^2}{2\sigma^2}}
  • 書き換えるとK(x,y) = e^{-\frac{||x||^2}{2\sigma^2}}e^{-\frac{||y||^2}{2\sigma^2}}e^{-\frac{2\sum x_u y_u}{2\sigma^2}}-> ||x||,||y||が標準化されているとき、e^{-\frac{2\sum x_u y_u}{2\sigma^2}}部分だけが問題となり、これはK(x,y) = e^{xy}に対応していて、これは、モーメント母関数に対応している〜