第7限 信頼区間と検定(推定統計) 遺伝統計学のための統計学基礎



  • 推定には「絶対正しい」ということはありえない。したがって、推定の結果を示すときには、次の2つの言い方をする。前者が検定。後者が信頼区間
    • 「推定しようとしているものの真の値が○でないと推定されるが、その確からしさは×%である」
    • 「推定しようとしているものの真の値は○の近くであると推定されるが、真の値は○であると決まっているわけではなくて、○'から○''の間に入る、と言った方がよい。ただし、○'から○''と範囲を広げても、絶対にその範囲にあると述べることは、無理なので、その範囲に収まる確からしさは100%ではなくて、×%である」
  • 信頼区間
    • 期待値x_oであるような確率変数がある
    • N回測定してやると、X={x_1,x_2,¥cdots,x_N}のようなデータが得られる
    • 期待値x_oを推定値は、観測データの平均値であるから、Ave=¥frac{¥sum_{i=1}^Nx_i}{N}がそれである
    • このN回の測定をM回行うと、Aveの値もM個得られる。つまり、M個の推定値が得られる
    • したがって、このような確率変数について、N回の観測を繰り返してその平均値を求めるとすると、その平均値はx_oをはさんだ区間aからa'の範囲に入る確率が○%となるような分布をしてくる
    • もしNを10回にしてやると、a,a'の値はかなりx_oの値から離れた値をとるが、Nを10000回にしてやると、かなりx_oの値に近くなる
    • だから、たくさん繰り返し観測すると期待値の推定値は真の期待値に近くなるわけである
    • しかし
    • 現実の観測では、x_oは知られていない。観測データセットX={x_1,x_2,¥cdots,x_N}とそこから計算されるAveの値が、1組得られるだけである。観測データセットの平均値はx_oに近いこともあれば、遠めのこともあることは上で述べた。今、手にしている観測データセットが、『よい』データセットなのか、『遠め』のデータセットなのかを知るすべはない
    • したがって、『知りたい値』=x_oは、Aveの近くにあるかもしれないし、遠くにあるかもしれないし、Aveより大きい方に遠いのか、小さい方に遠いのかもまったくわからない
    • であるから、Aveから小さい方にも、大きい方にも、ある範囲を広げてやり、その間に、×%の確率でx_oが入っていると言えれば、推定として上出来だ、という意味で、信頼区間を算出(算出方法は理論・近似が教えてくれる:参照ページはこちら)する
    • この場合もやはり、観測データ個数が少なければ、範囲は広くしないと、データ個数が多い場合と同じだけの確実度でものを言うことはできない
  • 検定
    • 検定では、ある仮説が成り立つか否かを判断することが多い(仮説検定)
    • 仮説(帰無仮説)では、『x_oの想定値』がある
    • 今、観測データセットがあるときに、x_oの推定値が信頼区間とともに得られることは上で述べた
    • x_oの想定値がこの信頼区間に含まれれば、仮説が正しい可能性がだろう。他方、想定値が信頼区間に含まれなければ、仮説が正しくないようだ。ただし、信頼区間からわかるように、真の値x_oは×%の確率で信頼区間外にあるので、仮説が正しくないと思われるようなデータセットが得られていても、やはり仮説が正しい可能性は×%で残っている
    • 2つのあい対する仮説について、どちらが正しそうか、どちらかが正しいと判断するとして、それが間違っている確率はどのくらいか、という問いに変更すれば、同様にx%の意味が定まる
    • 分布の知られた統計量を用いた検定
      • 知りたいこと、とそれを知るために取得したデータセットの特徴により、データセットから算出するのに「適当な統計量」というものがある(カイ自乗値とか、t統計量とか)。また、その「適当な統計量」は確率密度関数であるので、算出された値が、その確率分布のどのような位置(パーセンタイル)にあるかは知られているので、簡単に上述のx%を知ることができる
      • 今、適当な統計量を決めればx%は(簡単に)知ることができる、と述べたが、必ずしもそうとは限らない。特にゲノム解析などで問題になるのは、複数(多数)のテストを行ったり(Multiple testing(関連記事はこちら))、相互に独立でないテスト(連鎖不平衡関係にあるマーカーのテスト(関連記事はこちら))を行ったり、不均一な集団・サンプルを用いたテスト(集団階層化の関連解析(記事はこちら))などの場合には、「適当な統計量」から直接x%を知ることができない。このような場合には、『検定の原義』に立ち返る。「何度も何度も繰り返してデータセットを取得し、それについて、「ある値」を計算してやることを繰り返したとき、「ある値」の分布が得られる。実際の観測データで得た「ある値」がどれくらい外れた値か、がx%に相当する」というのが原義だから、実際にこれを行えばよい。これが、シミュレーションベース(permutationテスト)でのp値の決定法である
    • 分布の知られた統計量を用いるかわりに確率を直接計算する方法
      • 観測データが分割表で得られる場合には、計算統計量としてカイ自乗値を用いるが、観測データ個数が分割表のどのセルに入るかは、算術的に求められるので、それに基づいてp値を得る方法もある(Fisherの正確確率検定)
      • 「何を解析対象にし、その解析のために得られたデータの種類から、どの「統計量」を使って検定するか」が、「統計手法の選びかた」ということである。「統計手法の選び方(統計量の選び方)」については、こちらのページを参照