乗法的更新アルゴリズム
- どうして乗法的と言うか
- 複数のアドバイザが居るときに、そのアドバイザのアドバイスを使って何かの決断をするとする
- 決断の結果がよいこともあるだろうし、悪いこともあるだろう
- 決断の結果のよしあしを持って、アドバイザに信用を置くかどうか・アドバイザに信用を置くなら、どのくらい信用を置くかを変えることは、戦略としてよさそうに見えるし、実行しやすい戦略である
- じゃあ、その信用の程度はどのように変えるとよいかを決めないといけない
- その決め方として、次のような決め方はひとつのやり方である
- アドバイスが「よいアドバイス(そのアドバイス通りにしていれば結果がよかった)」だったら、そのアドバイザの信用は維持し、アドバイスが「悪いアドバイス(そのアドバイスどおりにしていれば結果が悪かった)」だったら、そのアドバイザの信用を減らす
- その減らし方を、k倍(0<=k<=1)にすることにする(ここが乗法的)
- そして、複数のアドバイザのアドバイスを取りまとめるときに、アドバイザの信用重みを使った重み付き平均とすることにする
- このルールにすると、「アドバイザの重み」は「よい状態」に収束することが知られている(収束することが、担保されているのが、アルゴリズムとしてありがたい)
- このシンプルな例では、重みは乗法的更新、情報の統合は線形和であったが
- 事情・問題設定・対象を変えても、『「収束させたいもの」を「掛け算的に」更新するルールだと、収束することが担保される』ことが示せる場合がたくさんあるので、それらを総称して乗法的更新アルゴリズムという