Maximum Mean Discrepancy

  • こちらの資料は「カーネル法入門」のうちの「カーネル平均を用いたノンパラメトリック推論」と題されたPDF
  • そのなかにMaximum Mean Discrepancyの定義が出て来るらしい
  • 確率変数(の観測標本)があるときに、そこにノンパラに分布推定をするつもりながら、分布推定をしないで、分布があったとしたときに、分布間の違いを定量するにあたり、Maximum Mean Discrepancyというものを使うらしい。カーネル関数を使って、カーネル関数変換した先の空間(特徴空間)での、分布の期待値(平均)を推定するらしい。しかもその平均の推定は、カーネルをうまく取ることによって、色々と有用な性質があって、その結果、期待値の比較をするだけで、分布本体の比較になる、と、そんなあらすじらしい…
  • まずは、そもそものカーネル法
  • カーネル平均
  • カーネル平均を用いた統計的推論
  • さて。MMD
    • 2標本問題(2つの標本セットを見て、それらが同じ分布由来か否かを考える問題)では、「平均値の差の検定」などを行うが、カーネル法では、カーネル平均が同じか違うかを問題とする
    • 2つの標本セットからのカーネル平均m_X,m_Yの異同を||m_X-m_Y||_H^2で測ることとし、これをMMD^2(X,Y)と書いて、MMDの定義とする。m_X,m_Yを納めた空間Hでの内積は、カーネル法ではお手の物
    • ||m_X-m_Y||_H= sup_{||f||_H=1} |E[f(X)]-E[f(Y)]|となっていることから、"Maximum", "Mean"が名前に入る
    • Xが標本数n、Yが標本数mのとき、MMDの推定値は
      • MMD_{emp}^2(X_n,Y_m) = \frac{1}{n^2} \sum_{i,j =1}^n k(X_i,X_j) + \frac{1}{m^2} \sum_{i,j=1}^m k(Y_i,Y_j) - \frac{2}{nm} \sum_{i=1}^n \sum_{j=1}^m k(X_i,Y_j)
      • これのunbiased versionはU統計量であってT_{n,m} =\frac{1}{n(n-1)} \sum_{i,j =1}^n k(X_i,X_j) + \frac{1}{m(m-1)} \sum_{i,j=1}^m k(Y_i,Y_j) - \frac{2}{nm} \sum_{i=1}^n \sum_{j=1}^m k(X_i,Y_j)
      • さらにこれは、h(x_1,x_2;y_1,y_2) = k(x_1,x_2) + k(y_1,y_2) - \frac{1}{2}(k(x_1,y_1)+k(x_1,y_2)+k(x_2,y_1) + k(x_2,y_2))を使って、T_{n,m} = \frac{1}{\begin{pmatrix}n\\r\end{pmatrix} \begin{pmatrix}m\\s \end{pmatrix}} \sum_\alpha \sum_\beta h(X_{\alpha_1},X_{\alpha_2};Y_{\beta_1},Y_{\beta_2})、ただし\alphaは{1,...,n}の要素数 r の部分集合、\betaは{1,...,m}の要素数 s の部分集合とも表せる

カーネル法入門―正定値カーネルによるデータ解析 (シリーズ 多変量データの統計科学)

カーネル法入門―正定値カーネルによるデータ解析 (シリーズ 多変量データの統計科学)