2−2.データから知りたいことを言葉にする ぱらぱらめくる『はじめての統計データ分析』
- 2章では、データに基づいて、モデルのパラメタの事後分布を推定することを学んだけれど、それ以外にも、いろいろな「知りたいこと」の事後情報が得られる
- RQ(リサーチクエスチョン)と称して、複数の「知りたいこと」が列挙してあるので、その意味を確認し、自分で「知りたいこと」を言語化できるようにする
- RQ.1 平均値の点推定
- データはある分布からの標本になっているというモデルに立っている
- モデルはパラメタによって特定される(パラメタが決める確率分布になっている)
- パラメタの値がXであるとき、どんな値が発生するかは、Pr(V|parameter=X)という分布になる
- 今、パラメタの値はXかもしれないし、Xではないかもしれないが、確率がP(X)であるとき、どんな値が発生するかは、Pr(V|parameter=X)とP(X)とを加味した分布で考える必要がある
- それをすべて加味して、その平均値はいくつになるか、がこのRQ.1の答え
- 具体的には、Xの事後分布標本があるので、各Xの値の場合に、平均どんな値が返ってくるかを計算すれば、その標本平均がRQ.1の答え
- RQ.2 平均値の両側区間推定
- 本当に、これが知りたいの?
- 平均値の点推定は、「期待値」
- 平均値がどこからどこまでに入っているか、という問いは、「平均値」というものに本当に興味があるときに、知りたくなること
- 普通はそんなことには興味はないのでは?
- RQ.3 平均値の片側区間推定
- RQ.2 と同様
- RQ.4 標準偏差の点推定・区間推定
- 標本がそのときどきでどれくらい値が違うかの目安の値
- RQ.5 予測分布の予測区間
- 今から新たに標本を取るとき、どんな値になるかなーというのが、知りたいこと
- 背景のモデルがどうなっているかは確率的で、何も確定的ではないけれど、そんなものは無くても、今まさに自分が知りたいことがわかる
- RQ.6,7,8,9,10,12
- RQ.11 基準点未満の測定値が観測される確率
- 興味のある何かが、ある条件を満足するであろう確率。これをなんらかの判断基準にする人にとっては重要だし、背景モデルが確定的でなくても、この値が出るところがベイズ