1.ベイズと分布 ぱらぱらめくる『はじめての統計データ分析』

  • ポイント
    • ベイズ流では、分布を扱うこと、ベイズの定理を使うこと、事前分布が必要なこと
    • 分布は大事であって、この本では分布を使う、ということ
    • 分布には
      • データ分布・標本分布がある
      • 理論分布がある
    • 分布を使うために知っておくべきこと
      • データ分布と理論分布とを関係づけて使うこと
      • 理論分布を利用するために知っておくべき概念があること
    • ベイズの定理と事前分布が大事であること
  • 知らなくてはいけない単語
    • 標本分布・データ分布
      • ヒストグラム
      • 標本分布の要約統計量
        • 平均・分散、n次モーメント
        • 最小値、クオンタイル値、最大値、中央値、
        • 最頻値
    • 理論分布
      • 式とパラメタ(母数)で書かれている
      • 確率密度関数(PDF):下面積が1
      • 積分布関数(CDF):0から増えて1に終わる
  • 理論分布の利用の仕方
    • 事前分布・データ生成分布・現実の分布の推定分布
    • コンピュータを使ってシミュレーションをするとき、理論分布に従う乱数を発生することは簡単(パラメタさえ指定すればOK)
    • 「こんな形の分布」という説明を複雑な分布についてするのは難しいが、「だいたいこんな形、理論分布で言えば○○分布でそのパラメタは×、△」と言うのは簡単
    • データはこんなヒストグラムを描くけれど、これが○○分布とすれば、パラメタば×、△、というのも簡単。データの基になる「本当の分布」は理論分布ではない
  • 理論分布を活用するときに知っておくこと
    • 同時分布
      • ある条件で、何かが起きる確率〜生起確率〜がある
      • 複数のことが、起きたとき、それらが相互に独立なら、生起確率は掛けあわせ陽
    • 条件付き分布
      • 生起確率は、条件によって変化するので、条件がわかっているときには、その条件の下での生起確率を問題にするべき。それが条件付き生起確率。条件付き生起確率も確率密度分布を成すので、それを条件付き生起確率分布と呼ぶ
  • 分布の推定と分布パラメタの推定
    • データを見て、そのデータが○○分布に従うを仮定したら、○○分布のパラメタがいくつなのかを決める必要がある
    • それが分布パラメタの推定
    • ただし、推定はいつも「絶対にこの値」と推定されるわけではなく、それは分布パラメタの推定でも同じ
    • 分布パラメタは「△△分布の形をしていて、その△△分布の形を決めるパラメタは×、■だろう」と推定することにする
    • このようにして推定される分布パラメタの分布は、「データを与えられたときの、パラメタの条件付き分布」
    • 尤度
      • 理論分布が観察データを生成する確率
    • 尤度比
      • 理論分布○○があったときに、パラメタの値が×のときと△のときとで、尤度が変わるが、どちらのパラメタ値がもっともらしいかを尤度比で比較することも多い
    • 尤度とパラメタ推定
      • パラメタ値の推定結果が分布になるというのは、このパラメタ値ごとに決まる尤度が分布になっているということ
  • 事前分布
    • 理論分布○○のパラメタ値が×であるようだ、ということを信じる強さは、尤度・尤度比にも依存するが、データを見る前にパラメタ値が×だと信じる程度にも依存する。それが×の事前確率。パラメタの値ごとに事前確率を定めると、パラメタ値に関する事前分布ができる
    • 事前分布は決めるのが難しい
    • 難しいのは、根拠がないから、という理由からも難しいが
    • パラメタの取り方を変えると事前分布ががらりと変わってしまうという事情からも難しい。無情報事前分布の問題と言う