道を選ぶ

  • 今、目の前にn.option本の道がある
  • その道には、それぞれ案内板が立っていて、「この道を進むと、n.type種類の猛獣が必ず1頭出ます。これまでの記録では、虎がa頭、蛇がb頭、蜘蛛がc頭…出ました」という情報が得られる
  • 一方、分岐点に立っている「私」は、これまでに、虎に対してA1勝A2敗、蛇に対してB1勝B2敗、…という記録がある
  • さて、どの道を選ぶか、という問題
  • 自分ひとりのことであれば、勝率の期待値が一番高いそれを選ぶのがよい
  • この記事の前後でやっているように、何度もトライアルをするにあたっての選択戦略として考えるなら、確率的に道を選ぶのがよいことになる
  • その確率の決め方はどうするか、という話
  • それぞれの記録から、猛獣の出現確率ベクトルの推定分布をディリクレ分布でとり、猛獣種類別の勝率の推定分布をディリクレ分布(ベータ分布)でとって、選択肢のそれぞれが最高勝率を与える事後確率を求めてみることにする
# 何が出るか、その種類
n.type <- 3
# 道の数
n.option <- 3
# 道ごとにどの種類が何回でたか
appear.record <- matrix(0,n.option,n.type)
# 対戦成績、タイプ別
match.record <- matrix(0,n.type,2)

appear.record <- rbind(c(50,20,10),c(20,10,50),c(10,10,10))
match.record <- rbind(c(5,3),c(1,1),c(1,4))

# シミュレーション回数
n.iter <- 1000
# 道ごとに何が出るかの確率ベクトルを発生する
appear.vector <- list()
for(i in 1:n.option){
	appear.vector[[i]] <- rdirichlet(n.iter,appear.record[i,]+1)
}
# 出現タイプごとの勝敗確率ベクトルを発生する
victory.vector <- list()
for(i in 1:n.type){
	victory.vector[[i]] <- rdirichlet(n.iter,match.record[i,]+1)
}

# 道ごとの勝率のベクトル
V.prob <- matrix(0,n.iter,n.option)
for(i in 1:n.iter){
	for(j in 1:n.option){
		for(k in 1:n.type){
			V.prob[i,j] <- V.prob[i,j] + victory.vector[[k]][i,1] * appear.vector[[j]][i,k]
		}
		
	}
}

apply(V.prob,2,mean)
tabulate(apply(V.prob,1,order,decreasing=TRUE)[1,])
  • 複数の選択肢があって、それらが帰結をもたらす確率分布を推定し、その比較をして優劣を決める(治療法の選択)のような場合は、「帰結(猛獣)の出現確率」に対して、「私」は猛獣Aなら必ず勝ち、猛獣Bなら必ず負ける、という設定に対応しており、上記の枠組みの特殊制約系になっていることにも注意

確率を使わないタイプの決定理論のメモ

  • 昨日の続き
  • Wiki
  • 不確かさが大きい時の決断の理論
    • 大失敗しにもおおいなるタナボタにも頑健な決断
  • Wald's maximin modelに近いかその一部であるらしい
  • 3つのモデルに分類される
    • Uncertainty model
    • Robustness/opportuneness model
    • Decision-making model
  • 確率を計算しない、乖離の程度を考慮する。ある選択肢が受け入れがたき結果が十分に遠くて(何から?)、受け入れられる結果が十分に近ければ(何から?)、その選択肢は「あり」
    • Resource allocationはUtility functionの導入に見える
    • 選択肢を量的変数としてその見返りを考える。「費用対効果」的に「最適値」が存在するような「費用対効果」関数を想定する。そのうえで、そのカーブの下限・上限を、「受け入れ難し」「タナボタがあるかも」の限界として定めると、「費用対効果」のカーブが幅のあるものになる。それを勘案して決断しているとする、そんなモデル
    • このモデルだと、「受け入れ難し下限カーブ」での最適な決定と、「タナボタ期待の上限株」での最適な決定とは異なる値となる(こともある)。人の「決断」はこの範囲のどこかになる(そのどのあたりになるかと「悲観的」か「楽観的」かとの関係がある)。「悲観・楽観」の表現型と「決断行動」の表現型との両方にばらつきがあって、その2つの表現型は相互に関連がある、というモデル、ともいえる
    • また、逆に言えば、「悲観・楽観」表現型と「決断行動」表現型には、初めからばらつきがあって、そのばらつきの成因を数学的?に表したモデルである、ともいえる
  • その他、メモ
    • 『確率』は計算できなくても『決断』はできる、『パラメタ値』は『点推定』したり『区間推定』できなくても『決断』はできる。では、どうやって?
    • 「案ずるより産むがやすし」「杞憂」…「決断」にはバリエーションがあるということ…
    • 「決断」を「表現型」とみれば、「表現型」だから多様性があるのが、生物の本質。では、その「決断という表現型のバリエーション」はどうやって決まる?
    • 「決断」は単細胞生物でもやっていること
    • 「決断」は「個体の選択」。集団が「決断」すると「分布」になる。「集団の決断分布」があるルールに従うように、「できて」いる(?)

つまりこういうこと?

  • 決断する、というのは、2つ以上あるオプションから1つを選ぶこと
  • それは、順序をつけること
  • 順序には尺度が必要
  • 尺度があっても順序はないこともある
  • 順序がきちんとつけば、それは全順序
  • 順序が中途半端につけば、それは(それの一部は)半順序
  • 半順序に全順序をつけるためには、何かしらのルールが必要で、ルール次第で出来上がる全順序は変わる
  • 確率とか尤度とかは、半順序に全順序を入れる、「ひとつのルール」の模様
  • そもそも半順序もないこともある(グラフで言ったらサイクルあり)
  • サイクルがあったら、いつまで考えるかで、終着点は変わる(どれにしようかな、天の神様の言うとおり…、はまさにこれ。「来る、来ない、来る、来ない…」の花占いは2択の場合の、どこかで止める手法)
  • 順序を考えるときには、2つのものの比較、は基準(であることが多い)
    • n>2個以上集まって、それによって順序が決まることも原理的には考えられるが、そうはしていないように思える(のは主観的?)
  • 2個の比較を続けて行くとグラフができる。サイクルなしのグラフができたら、半順序かもしれない
  • おそらくサイクルなしで半順序になっていなければ、よく考えると、2者比較を反転したりして、半順序が「妥当」であると考え直しそう
  • サイクルができてしまったら、「半順序化」は諦めて、堂々巡り対策をするが吉

ぱらぱらめくる『An Introduction to Decision Theory』

  • ある仮説を検定する、(比較的単純なパラメタを)推定する
  • 2つの仮説を比較する、モデルに照らしてパラメタ推定する、モデル選択をする
    • 仮説の比較とモデル選択とも相互の関係が密接(モデル選択に関する最近のメモはこちら
  • 決定する(選んで前に進む)のは「検定・推定・モデル選択の結果を使って(後戻りできない条件の下で)決定する」こと
  • この決定理論は賛否・毀誉褒貶がかしましい領域のようだが、ひとまず、目次をめくってみよう

An Introduction to Decision Theory (Cambridge Introductions to Philosophy)

An Introduction to Decision Theory (Cambridge Introductions to Philosophy)

  • 大まかに言って、「ひとりの決断」と「相互作用するときの決断」と「社会的決断」に分かれる(ようだ)
  • 目次
    • 1. Introduction
      • 哲学・経済学・政治学・心理学・計算機科学・統計学が絡む
      • 説明的な決定理論(「なぜギャンブルをするか」の説明)と規範的な決定理論(ギャンブルするときに「どう決断するか」の説明)
      • 合理的で正しい決定
      • リスクと無知と不確定
      • 社会的選択理論(Social choice theory)とゲーム理論
        • 多数決とか、決定が相互作用する場合とか
      • 決定理論のごく短い歴史
        • Old period, pioneering period, axiomatic period
    • 2. The decision matrix
      • States(状態?)
        • 可能性の場合分け
      • Outcomes(帰結?)
        • 評価される結果
      • Acts(行動?)
        • 決断行動の分岐
      • 競争相手の定式化(2つの対立する『仮説』のようなもの)
    • 3. Decisions under ignorance
      • Dominance(支配?優勢?)
        • 順序、半順序と決断、という話
      • マキシミン原理とレキシミン原理
      • Maximax原理とoptimism-pessimism ルール(最高・最低のバランスを取る)
        • いずれも、半順序に順序を入れるルールのこと
      • 不十分な理由の原則(?)
        • 場合分けされる状態の種類数も不明・不確定、個人差あり
      • ランダムな行動
        • わからないなら、さいころを振るのも手(知らないところで選択に傾向が出るのを避けたい、という意図)
    • 4. Decisions under risk
      • 「不明」な場合よりは、わかっているけれど、それが確率的な場合
      • 何を最大化するか
      • 期待されるUtilityを最大化することの合理性は何か?
      • 公理的アプローチ
        • Utility関数をそれなりに作るのも、半順序(っぽいもの)に順序を入れるルール
        • Utility関数があるかもしれないが、あるとしてもそれはいつも同じなわけではなさそう。同一のUtility関数では矛盾が生じる
      • Allais' パラドックス
      • Ellsberg's パラドックス
      • サンクトペデルスブルグのパラドックス
      • 2つの封筒のパラドックス
    • 5. Utility
      • 順序尺度の作り方
      • von NeumannとMorgensternの間隔尺度
      • Utilityは比尺度で測れるか
      • 測定不能でもUtilityを定義できるか
    • 6. The mathematics of probability
      • 確率の計算
      • 条件付き確率
      • ベイズの定理
      • 事前確率が不明、という問題
    • 7. The philosophy of probability
      • 古典的な解釈
      • 頻度的解釈
      • Propensity interpretation どのくらい起きるかという立場での解釈
      • 論理や認識の立場での解釈
      • 主観的確率
    • 8. Why should we accept the preference axioms
      • 合理的な選択の好みは推移的でなければいけないか
      • 合理的な選択の好みはcompleteでなければいけないか
      • Multi-attitudeアプローチ
      • 合理的な選択の好みは独立の公理を満たさなければいけないか
      • リスクを嫌うこと
    • 9. Causal vs. evidential decision theory
      • Newcomb's problem
      • Causal decision theory
      • Evidential decision theory (EBMはこのあたり?)
    • 10. Bayesian vs. non-Bayesian decision theory
    • 11. Game theory I: basic concepts and zero sum games
      • 囚人のジレンマ
      • ゲームの分類
      • Common knowledge とDominance reasoning
      • 2人でやるゼロ-サム ゲーム
      • Mixed 戦略とminimax theorem (このあたりで囲碁ソフト(関連記事)につながる)
    • 12. Game theory II: nonzero sum and co-operative games
      • Nash平衡
      • The battle of the sexes and chicken
      • The bargaining problem
      • Iterated games
      • ゲーム理論と進化→ここでようやく『遺伝学』
      • ゲーム理論と倫理
    • 13. Social choice theory …経済理論っぽい
      • Social choice問題
      • Arrow's impossibility problem
      • Sen on liberalism and the Pareto principle
      • Harsanyi's utilitarian theorems
    • 14. Overview of descriptive decision theory
      • Utility原則に当てはまらないこと
      • Prospect theory
      • 推移性とcompletenessが守られないこと
        • 推移性 x < y, y < z ならば x < z
          • じゃんけんは、グー < パー < チョキ < グー < ...と守られていない
      • Descriptive decision theoryの妥当性

単純なルールを予測する

  • 統計学やデータ解析ではモデルを単純にしよう、という大前提を使う。「オッカムの剃刀」。これは、モデルの過適合を避けよう、という意図に通じている
  • 統計学・データ解析によらず、原則、「オッカムの剃刀」で行こうよ、という立場は強く、それが「物理の法則」による自然界の理解の根っこにあるわけであるが…
  • さて、生物界では、どうなの?と言うと:
  • 「世界がどうなっている」のかわからない状態で、生命体が環境(この中に他の生命体も含まれると思われる)とのやり取りをしながら、自身の最大の利益を目指して頑張るとどうなるか、というと、感知された情報の中に、もっとも単純なルールを見出して、それに従って戦略を立てるのがよい、ということが示されている、という
  • Marcus Hutter による理論で、それに基づく「人工知能」をAIXIというそうだ(こちら)
    • このAIXIは、生命体(生きていなくてもよいけれど)と環境があって、それらがともに相互作用し合うチューリングマシンで、感知・行動・感知・行動を交互に行うとする(相互プレー型のスポーツ競技は、この練習をしていることになる?)。このような条件での最適な行動というのは、その時点までの観察に合致する、もっとも短いプログラムによって環境が制御されているとの推測に基づいたものだ、というもの
  • この「もっとも短いプログラム」というのは、「観察データの圧縮」ともいいかえられるので、「圧縮〜人工知能」という言い換えも可能だ…という話にもつながり、それは「テキスト圧縮」の話題(こちらでもやった)につながって行くのだが。そしてそれはグラフ圧縮でこちらと関係するのだが。
  • さて話をAIXI的発想ができてくる過程に戻そう
    • 決定理論(この中には確率的な考え方が入ってくる)と
    • Universal inductionという考えがあって、このUniversal inductionは「オッカムの剃刀(けちけちの法則)」と「感知重視(エピクロス派)」と「ベイズ(事前確率・事後確率)」からなるという
    • これらの複合としてUniversal Artificial Intelligence without Parametersという考え方が出て、ここから出てきたのがAIXI
  • 参考資料

ISBN:9783540221395:detail