5 仮説の遠近

  • もう少し進めよう
  • 前の記事では、仮説を階層化して、群に分け、群内で、候補を落とすときには、群内の「仲間内の候補」で残留する候補に「ありやすさ」を引き継ぎ、群を越えたら「ありやすさ」を引き継がない、というやり口だった
  • 「あり」か「なし」かの2者択一
  • この区別を質的なものから量的なものに切り替える
  • 「限りなく近いもの〜仲間内の候補」と「限りなく遠いもの〜群の異なる候補」の区別は「近い・遠い」の区別なので、これに量を持ち込む〜距離を持ち込む
  • すべての候補の間にペアワイズに距離が定まっているとする
  • 仮説iと仮説jとの間の距離はd_{i,j} = d_{j,i}であって
  • 仮説iが何らかの理由で候補から脱落するとする
  • 脱落前の候補が持つ「得点」がp_iだったとすると、このp_iをそれ以外の候補に割り振る必要が出る
  • その割り振り割合を決める要因のうち、仮説iとの距離を変数とする部分を定める関数をf(d)とすれば
  • その部分の仮説jのそれはf(d_{i,j}) p_iになる
  • ここで少し考えよう。仮説jと仮説kとが仮説iから等距離にあるとき(d_{i,j} = d_{i,k})、割り振りはf(d_{i,j}) p_i, f(d_{i,k})_i = f(d_{i,j}) p_iのように同じだけを割り振ってよいのだろうか?
  • 仮説iから等距離にあるのであれば、割り振られ方は仮説j,kのそれぞれの「現在の持ち分」に応じて分配するのが筋なのではないだろうか
  • とするとf(d_{i,j}) p_j p_i, f(d_{i,k}) p_k p_iの割り振りとなる
  • このようにすると、すべての仮説間の距離が等しいときは候補iが脱落しても、残りの候補の持ち分の比率は変化しない
  • このことも、この割り振りが妥当であると感じさせる大きな理由の一つだろう
  • ではここでのfはどんな関数だろう。f(d) = e^{-\frac{d^2}{2}のようにガウシアン型カーネルのような分布が素直なのでは
  • さらにすると・・・
  • 今はある候補iが完全にレースから脱落する場合であったが、p_i -> p_i - \deltaとなるのがよい、という情報が得られたときに、この差\deltaを分配するのも上記と同じやり方はどうだろうか?
  • 悪くないんじゃないかな、と思う