指数型表現の利点の確認(5)尤度関数、スコア関数と最尤推定とフィッシャー情報行列

  • ある事象が何件起きて・・・という観察データに関して尤度関数が指数型分布族で表される
  • 一般に、確率密度分布がf(\mathbf{x}|\mathbf{\theta})と表されている時、ある観察のもとでの\mathbf{\theta}の尤度L(\mathbf{\theta}|\mathbf{x}) = f(\mathbf{x}|\mathbf{\theta})であって、形が変わらない(気にするのは、どちらを動かすか、だけ)
  • 一般に、指数型分布族の場合f(\mathbf{x}|\mathbf{\theta}) = h(\mathbf{x})e^{\theta\cdot T(\mathbf{x}) - A(\mathbf{\theta})の対数を取って、\mathbf{\theta}微分してみる。それはスコア関数(対数尤度関数の微分)
  • \frac{\partial (\ln{h(\mathbf{x})}+\theta \cdot T(\mathbf{x})-A(\mathbf{\theta}))}{\partial \mathbf{\theta}
  • (...,\eta_i T(x_i) - \frac{\partial A(\mathbf{\theta})}{\partial \eta_i},...)となるが\frac{\partial A(\mathbf{\theta})}{\partial \eta_i}T(x_i)の期待値であって、また、多項分布のT(\mathbf{x})は各項そのまま(T(\mathbf{x}) = (x_1,x_2,...)なので結局
  • \frac{\partial \ln{f(\mathbf{x}|\mathbf{\theta})}}{\partial \mathbf{\theta}}=\mathbf{x}-\mathbf{\mu}となる
  • これは、尤度関数が最大になるのは\mathbf{x}=\mathbf{\mu}のとき、と言っている
  • また、前記事で分散共分散行列〜Hessianが半正定値であること、指数型分布族の関数が凸関数であることを書いたが、凸関数で微分して0の点が求まってしまえば、そこが頂上である、ということとも繋がっている
  • このように凸であるので、解析的に最尤推定値が出せなくても、山登り法で解が得られることを意味している
  • さらにフィッシャー情報行列はスコア関数の2次微分
  • 指数型分布族では、パラメタと確率変数との1次の関係が指数関数の肩に乗っている。パラメタと確率変数の1次の関係を1次の関係として取り扱うためには、対数を取ればよいから、スコア関数は対数をとったものを微分している
  • フィッシャーの情報行列も、その一環として、指数の肩にあるパラメタと確率変数との1次の関係を表に出して、それの2次微分を問題にして曲面の特性を捉えようとしたものであることがわかる