Dually Flat Manifolds

  • 資料
  • 確率分布を点としてもつ多様体を統計多様体という
  • 確率分布をn個のパラメタで表すことにすると、その統計多様体はn次元多様体
  • 多様体には多様体固有の特徴があって、それはリーマン計量だったりするわけで、局所座標系を入れる・入れないに関わらずその多様体の広がり具合というのは決まっている
  • 統計多様体では、座標系を入れる。パラメタで分布を表現することと同じ
  • パラメタを入れて、多様体全体をパラメタを使った座標表示にすると、格子が張り付いたことになる
  • この格子は、うまく張り付けると、ねじれたり捩れたりしないで素直に多様体上を流れていく
  • そんなよい感じの座標表示を"flat"と呼ぶ
    • 具体的には、3次元以上の多様体のときに、任意の3パラメタの間に延び広がり方・曲り方に偏りがないようなもののこと
    • 2通りのflatがあって、e-flat, m-flatと言うものがあり、この2つのflatは相互に密接な関係がある
    • またe-,m-flatsを表す式もよく似ている
    • e-flatの定義:確率分布が\mathbf{\theta}で表されている
      • E[\frac{\partial^2}{\partial \theta_i \partial \theta_j}\log{p(x,\mathbf{\theta})} \frac{\partial}{\partial \theta_k}\log{p(x,\mathbf{\theta})}]=0
    • m-flatの定義:確率分布が\mathbf{\eta}で表されている
      • E[\frac{1}{p(x,\mathbf{\eta})}\frac{\partial^2}{\partial \eta_i \partial \eta_j}p(x,\mathbf{\theta}) \frac{\partial}{\partial \eta_k}\log{p(x,\mathbf{\eta})}]=0
  • e-flatならm-flat、m-flatならe-flat
  • e-,f-両方のflatなパラメタ表現があるとよい(のだが、そうそう簡単に見つからないかもしれない)
  • ありがたいことに…
    • 多くの確率分布のパラメタ表現は、e-flatになるような表現で書きだせる。また、そのような表現を持つ確率分布を指数分布族と呼ぶ。そのような表現は
      • p(x,\mathbf{\theta})=e^{\sum \theta_i k_i(x)- \psi (\mathbf{\theta})}
        • ただし、e-flatな分布関数が、すべて指数分布族なわけではない
    • また、m-flatになるような確率分布族も知られている。混合分布族
      • p(x,\mathbf{\eta})=\sum \eta_i q_i(x) + (1-\sum \eta_i) q_0(x)
        • ただし、m-flatな関数が、すべて混合分布族なわけでもない
  • e-flatなパラメタ表現がわかっても、m-flat表現がわからないとつまらないし、その逆も然り
    • ありがたいことに、ルジャンドル変換と呼ばれるルールで見つけられる。以下の変換ルールを見ればわかるように、\mathbf{\theta}\mathbf{\eta}とは、要素ごとに対応関係がある
      • \eta_i = \frac{\partial}{\partial \theta_i} \psi(\mathbf{\theta})= E[k_i(x)]
      • \theta_i = \frac{\partial}{\partial \eta_i} \phi(\mathbf{\eta})
        • \phi(\mathbf{\eta}) = E[\log{p(x,\mathbf{\eta})}]
  • 対数尤度関数での関係
    • 確率分布を2通りのflatなパラメタ表現をすること、それらの相互関係について書いてきた
    • 確率分布関数を尤度関数とみなすとき、尤度関数の代わりに対数尤度関数を用いることも多い。確かに、上記の記載でもあちこちで対数化した関数が用いられていた
    • 以下では、対数尤度関数\log{p(x,\mathbf{\theta})},\log{p(x,\mathbf{\eta})}としてやり、そのパラメタ方向偏微分を成分とするベクトルを考えると、\theta,\etaとが「正規直交基底関係」のように見える(実際は、\mathbf{\theta}のそれぞれの成分同士は互いに直交ではなく、\mathbf{\eta}も同様なので、e-flat側とm-flat側との対応がきれいだ、ということになる
    • [tex: = \delta_{ij}]
  • Dual flatなパラメタ表記を用いると、次が言える
    • \psi(\mathbf{\theta}) + \phi(\mathbf{\eta}) + \mathbf{\theta} \cdot \mathbf{\eta} = 0
    • この式は、p(x,\mathbf{\theta}),p(x,\mathbf{\eta}という、「同じ関数」「多様体上の同じ点」の異なるパラメタ表記に関すること
    • ここで、「異なる点」についてこれを用いる
    • D[p:p']=\psi(\mathbf{\theta}) + \phi(\mathbf{\eta}') + \mathbf{\theta} \cdot \mathbf{\eta}'というものが定義できて、これはp=p'のときに0でそうでないときには正の値をとる
    • これがKL divergenceとなっている
    • D[p:p'] = E_{\mathbf{\theta}}[\log{\frac{p(x,\mathbf{\theta})}{p(x,\mathbf{\theta}')}}]
  • 関数間の遠近関係
    • 関数は統計多様体上の点なので、関数の違いを多様体上の「距離」として測りたい
    • しかしながら、KL divergenceの定義は、「自身」とのdivergenceを0となるような定義式を使って、「他者」のdivergenceを正の値にしており、2つの関数のどちらを基準にするかで値が変わる。そのことを受けて「距離」ではなく"divergence"と呼ぶ
    • e-,m-flatsという2通りのパラメタ系の良さは次の通り
      • e-系で表しているとき、e-flatなので、ごちゃごちゃ考えずとも、e-系のパラメタを使って比較的簡単にdivergenceを計量することができる
      • m-系の場合も同じ
      • 今、3つの関数p,p',p''があったときに、
      • p,p'について、e-系表現がわかっていれば、両者のdivergenceが簡単に測れる
      • さらに、p',p''について、m-系表現がわかっていれば、両者のdivergenceも簡単に測れる
      • p,p''の間のdivergenceは、片やe-系、片やm-系なので、簡単に測れないけれど、ここで、e-系とm-系とが「直交」していることが役に立ち、両者が単純に足し合わせればよいことが示せる
  • 関数間の遠近を統計量にする
    • KL divergence(対数尤度の差)の2倍の値はカイ二乗分布に従うことが知られており、尤度比検定に持ち込める
  • Flatなsubmanifolds
    • e-,m-flatsのよいところは、それぞれの座標系で、関数空間全体がベクトル空間のようになっていることである
    • 今、例えばe-系で表された関数空間全体のうち、e-系の線形和で表せる部分空間(submanifold)を取り出したとする
    • これはe-系表現があるからe-flatだし、e-flatならばm-flatではあるけれど、m-系で線形和に表せるかどうかというとそうはならない
      • e-系とm-系とは、相互に「直交」関係にあり、e-のすべての要素のそれぞれをm-系の全要素が分担して表現する、というような関係になっている(なっていがち)なために、e-の方の部分をとっても、m-の方は「個々の要素の寄与分」は小さくなっても、mの要素数を減らすわけにはいかないことなどを念頭に置くとわかりやすい
  • うまく辻褄の合うe-系submanifoldシリーズとm-系submanifoldシリーズ
    • e-系とm-系とのパラメタには、対応関係があるので、それについて注意をしつつ、パラメタを除いていくと(パラメタの値を固定していくと)、入れ子になったe系submanifoldsシリーズとm-系submanifoldsシリーズができる。それは、直交性を利用して活用することができる