Fisher 情報量 リーマン計量 Jeffreys Prior KL情報量

  • メモ
  • 尤度関数はパラメタを動かすと連続的に変わる。その様子は多様体
  • 尤度関数を表すパラメタは、尤度関数の多様体に張り付けた局所座標
  • 多様体上の2点は異なるパラメタ値を持つ2つの尤度関数。その間に「距離」のようなものがあるが、「道のり」の取り方が異なると、行きと帰りとで「遠さ」が違う。これがKL divergence
  • 多様体上で、道のりを測るには、局所それぞれに計量を入れる必要がある
  • 多様体側ではそれをリーマン計量と呼ぶ。リーマン計量はパラメタの取り方で変わる(が本質は変わっていない)
  • 尤度関数のパラメタ値の推定の枠組みでは、この計量をフィッシャー情報量と呼ぶ
  • フィッシャー情報量はリーマン計量と同じ役割を持つ。つまり、局所に内積を定めている
  • 局所に内積を定めるとは、行ベクトルと列ベクトルとでフィッシャー情報量(またはリーマン計量)をサンドイッチすると、「内積」の値が返るようにする、ということ
  • その「局所内積」を積分するとKL divergenceだが、「近似」してしまえば、内積自体がKL divergenceになる
  • したがってKL divergenceのテイラー展開の2次の項(0,1次の項は0なので、一番初めに出てくる項)がフィッシャー情報量(またはリーマン計量)とあるパラメタの変化ベクトルとから算出される「道のりの長さ」になる
  • この話をうまくするには、「尤度関数」は「対数尤度関数」に変換して考えるのがよい。そうすると、(正規分布のように、ピークがあって、無限遠に向かって0に収束するようなカーブも)そこらじゅうで上に凸なカーブになって、カーブ(1次元多様体)の曲率のような議論ができるから
  • Jeffreys priorは…、はて。この枠の中で何になるのか、まだ、うまく説明できない
  • まず、フィッシャー情報量行列の行列式を問題にするが、行列の行列式固有値の積なので、曲率的な世界で言えば、まあガウス曲率とか、「面積がどのくらい伸び縮みするか」のスカラー指標。これはさらに次元に関して一般化されて\sqrt{|det(g)|}がvolume formになっている