２−２．データから知りたいことを言葉にする　ぱらぱらめくる『はじめての統計データ分析』

２章では、データに基づいて、モデルのパラメタの事後分布を推定することを学んだけれど、それ以外にも、いろいろな「知りたいこと」の事後情報が得られる
RQ(リサーチクエスチョン)と称して、複数の「知りたいこと」が列挙してあるので、その意味を確認し、自分で「知りたいこと」を言語化できるようにする
RQ.1 平均値の点推定
- データはある分布からの標本になっているというモデルに立っている
- モデルはパラメタによって特定される(パラメタが決める確率分布になっている)
- パラメタの値がXであるとき、どんな値が発生するかは、Pr(V|parameter=X)という分布になる
- 今、パラメタの値はXかもしれないし、Xではないかもしれないが、確率がP(X)であるとき、どんな値が発生するかは、Pr(V|parameter=X)とP(X)とを加味した分布で考える必要がある
- それをすべて加味して、その平均値はいくつになるか、がこのRQ.1の答え
- 具体的には、Xの事後分布標本があるので、各Xの値の場合に、平均どんな値が返ってくるかを計算すれば、その標本平均がRQ.1の答え
RQ.2 平均値の両側区間推定
- 本当に、これが知りたいの？
- 平均値の点推定は、「期待値」
- 平均値がどこからどこまでに入っているか、という問いは、「平均値」というものに本当に興味があるときに、知りたくなること
- 普通はそんなことには興味はないのでは？
RQ.3 平均値の片側区間推定
- RQ.2 と同様
RQ.4 標準偏差の点推定・区間推定
- 標本がそのときどきでどれくらい値が違うかの目安の値
RQ.5 予測分布の予測区間
- 今から新たに標本を取るとき、どんな値になるかなーというのが、知りたいこと
- 背景のモデルがどうなっているかは確率的で、何も確定的ではないけれど、そんなものは無くても、今まさに自分が知りたいことがわかる
RQ.6,7,8,9,10,12
- 色々な何か(生成量：分散・変動係数・効果量など)の点推定と区間推定。「何か」に興味があれば、大事。そうでなければ不要
- 知りたい「何か」は、そこに名前が与えられているから知りたいのではなくて、「自分が何かを知りたい」ときに、それはどのように定義されるべきかを考えられることが大事
- そして「自分が知りたい何か」は多くの場合、「先人も知りたかった」ので名前がついていることが多いから、その名前を知ることは便利。ただし、「先人が名前を付けた何か」というのは、「その昔、推定可能だったもの」であることが多いので、「今の私」が知りたいことをすべてカバーしているとは限らないことに注意
RQ.11 基準点未満の測定値が観測される確率
- 興味のある何かが、ある条件を満足するであろう確率。これをなんらかの判断基準にする人にとっては重要だし、背景モデルが確定的でなくても、この値が出るところがベイズ