へいきん

  • こちら,こちら,こちら,こちらでやっていることのこと
  • 観測値の標本平均値は\frac{\sum_{i=1}^n x_i}{n}
  • これはf(x|m) = \sum_{i=1}^n (x_i-m)^2を最小にする\hat{m}
    • \frac{d f}{dm} = \sum_{i=1}^n 2(x_i-m) = 2 (\sum_{i=1}^n x_i -n \times m) = 0の解
    • 実数直線にx^2という距離の定義を入れ、そのWasserstein distanceの和を最小にするようなm ( \hat{m} = argmin_m \sum_{i=1}^n W(m,x_i)^2_2)
  • 別の見方をすると、平均m(分散はなんでもOK)なる正規分布からの標本であるとみなしたときの尤度・対数尤度を最大にするm
  • 「へいきん」というのが、算術平均(足して割る)なので、対数尤度(尤度は足し合わすことができる)を「距離コスト」としてWasserstein距離の下での「へいきん」が最尤推定値であり、標本平均
  • こう考えれば、正規分布ではない統計モデルの下でのモデルパラメタの最尤推定は、パラメタが張る空間に尤度で距離コストを定めたうえでの、Wasserstein 平均を求めることが、モデルパラメタ最尤推定となる
  • 逆に、標本が複数あって、それらが指し示す「ベストな推定」をする、とは、空間と距離の定義を入れた上でWasserstei distanceの総和の最小化問題になる
  • 推定課題は、空間の置き方とそこの距離の置き方のバリエーション
  • さて…。
  • また、http://d.hatena.ne.jp/ryamada/20170310では、この最小化推定をするアルゴリズムとして、空間を全探索する代わりにエントロピーを使って1次元多様体に沿った探索に落としている
  • その落とし方は、正則化項(LASSOとか、圧縮とか)とよく似た式に変わることに注意
  • こちらこちらもメモ