2−2.データから知りたいことを言葉にする ぱらぱらめくる『はじめての統計データ分析』

  • 2章では、データに基づいて、モデルのパラメタの事後分布を推定することを学んだけれど、それ以外にも、いろいろな「知りたいこと」の事後情報が得られる
  • RQ(リサーチクエスチョン)と称して、複数の「知りたいこと」が列挙してあるので、その意味を確認し、自分で「知りたいこと」を言語化できるようにする
  • RQ.1 平均値の点推定
    • データはある分布からの標本になっているというモデルに立っている
    • モデルはパラメタによって特定される(パラメタが決める確率分布になっている)
    • パラメタの値がXであるとき、どんな値が発生するかは、Pr(V|parameter=X)という分布になる
    • 今、パラメタの値はXかもしれないし、Xではないかもしれないが、確率がP(X)であるとき、どんな値が発生するかは、Pr(V|parameter=X)とP(X)とを加味した分布で考える必要がある
    • それをすべて加味して、その平均値はいくつになるか、がこのRQ.1の答え
    • 具体的には、Xの事後分布標本があるので、各Xの値の場合に、平均どんな値が返ってくるかを計算すれば、その標本平均がRQ.1の答え
  • RQ.2 平均値の両側区間推定
    • 本当に、これが知りたいの?
    • 平均値の点推定は、「期待値」
    • 平均値がどこからどこまでに入っているか、という問いは、「平均値」というものに本当に興味があるときに、知りたくなること
    • 普通はそんなことには興味はないのでは?
  • RQ.3 平均値の片側区間推定
    • RQ.2 と同様
  • RQ.4 標準偏差の点推定・区間推定
    • 標本がそのときどきでどれくらい値が違うかの目安の値
  • RQ.5 予測分布の予測区間
    • 今から新たに標本を取るとき、どんな値になるかなーというのが、知りたいこと
    • 背景のモデルがどうなっているかは確率的で、何も確定的ではないけれど、そんなものは無くても、今まさに自分が知りたいことがわかる
  • RQ.6,7,8,9,10,12
    • 色々な何か(生成量:分散・変動係数・効果量など)の点推定と区間推定。「何か」に興味があれば、大事。そうでなければ不要
    • 知りたい「何か」は、そこに名前が与えられているから知りたいのではなくて、「自分が何かを知りたい」ときに、それはどのように定義されるべきかを考えられることが大事
    • そして「自分が知りたい何か」は多くの場合、「先人も知りたかった」ので名前がついていることが多いから、その名前を知ることは便利。ただし、「先人が名前を付けた何か」というのは、「その昔、推定可能だったもの」であることが多いので、「今の私」が知りたいことをすべてカバーしているとは限らないことに注意
  • RQ.11 基準点未満の測定値が観測される確率
    • 興味のある何かが、ある条件を満足するであろう確率。これをなんらかの判断基準にする人にとっては重要だし、背景モデルが確定的でなくても、この値が出るところがベイズ