Gittins index

Gittins index

資料 s成功回数、f失敗回数 試行回数が大きくなるとインデックスはs/(s+f)に収束する 期待値はベータ分布事後分布を用いる インデックスの収束値からのずれは、その時点での予想報酬量のばらつきが多いほど、大きくなる インデックスの収束値からのずれは、…

ベルマン方程式

調べものをしましたが、日本語サイトの中でこちらが一番、わかりやすく参考にさせていただきました ベルマン方程式というものがある。Wikipediaではベルマン方程式(リチャード・E・ベルマン)、もしくはBellman_equation 選択肢があるときに、どれを選ぶとよ…