第2限 記述統計と推定統計 遺伝統計学のための統計学基礎



  • 記述統計と推定統計
  • 記述統計
    • 記述統計は、ばらつきのあるデータ集合があるときに、そのデータすべてを認識することが(普通の)人には無理なので、そのデータがどのようなものかを、認識可能な抽出情報エッセンスに要約することと、その要約情報を認識しやすい形で提示する方法についてを担当する。
    • たとえば、あるデータ集合があるときに、その分布が「1峰性の分布であり、全標本数が182、最小値が3、最大値が121で値はその間の整数をとっていて、平均値(mean)が50.3、最頻度(mode)が45、中央値(median)48である」と説明(記述)されると、かなり、データ全体(182データ)について、どのような分布をしているかが把握できる。また、別のデータ集合についても同様の記述がされれば、2つのデータ集合の比較することも簡便である。さらに、パーセンタイル値(25パーセンタイル、75パーセンタイルなど。中央値は50パーセンタイル)などでより細かい情報が有用なこともある。また、1峰性データ集合の場合には、さらに分散や尖度、歪度なども分布について特徴的な情報が得られる。
    • どのような記述統計の指標(平均値、最頻値、分散など)の情報が多いかは、データ集合の分布による。たとえば、正規分布に従う(と思われる)データ集合の場合には、平均値・最頻値・中央値がすべて一致し、左右対称であるなどの特徴があり、実際には、平均値と分散のみで分布が一意に決定できるので、「平均値mと分散Vの正規分布をとる標本数n」の分布であるとの記述は必要十分である
  • 推定統計
    • 推定統計では、「知りたいこと」と「知りたいことについての情報を有するデータ集合」があり、「データ集合」から、「ある確からしさ」という限定条件のもとで「知りたいことの真実」が推定される
    • 「知りたいこと」が確率的な事象であるとき、それは「期待値」と呼ばれる。「期待値」を推定するためにデータを蓄積する。「期待値」の推定値の「確からしさ」は「信頼区間("95%の確率で『知りたい値』は○から×の間をとる)」と示されることが多い。
    • また、ある棄却したい帰無仮説(『推定値が○である』という仮説)がある場合には、「第1種過誤αで帰無仮説は棄却される(検定テストでP<=α)」のように示される。また、2つの仮説を比較している場合には、「第1の仮説(『推定値が○である』)に基づく尤度がL1、第2の仮説(『推定値が×である』)に基づく尤度がL2であり、第1の仮説は第2の仮説よりも○倍、ありそうである」というような示され方をする
    • 「知りたいこと」のレベルはいろいろである
      • 遺伝疫学(集団の疾患感受性多型解析を含む)の場合を考える
        • ある多型が疾患感受性であるときに、次のそれぞれは推定の対象となる
          • その感受性が単一ローカスとして有する生物現象としての疾患感受性の強さ(理想的集団における相対危険度)
            • 生物個体母集団は、交配・組換え・変異・環境要因などの確率事象の結果であるから、たとえ母集団であっても、「壮大な実験が作った1標本集団」である。したがって、ある生物個体母集団における真実(悉皆標本を用いて、まったく測定誤差がないとしても、そこから得られる観測データ集合は、生物現象上の真実を推定する根拠を与えるだけである
          • その感受性が単一ローカスとして有する母集団での疾患感受性オッズ比(母集団(収集できる限り最大の集団)におけるオッズ比)
            • 通常、母集団は大サイズであり、悉皆標本のすべてを観測することはできず、抽出代表集団の観測データ集合から、母集団についての「知りたいこと」を推定する
          • その感受性が単一ローカスとして有する標本集団での疾患感受性オッズ比(標本集団(通常は母集団についての推定値を得るために、その抽出標本集団である)におけるオッズ比)
            • 標本集団について観測するが、その観測には、測定誤差・測定エラーが混入する。したがって、標本データ集合からも標本集団について「知りたいこと」は推定することしかできない
    • 通常、母集団推定値と標本集団観測値の間の関係については、『標本分散』と『母分散の不偏推定量』の違いなどの説明が統計学のテキストのはじめの方に出るように、ルーチンの統計解析手法にて区別して求められる。(解説はこちら、など)
    • 通常の遺伝学・遺伝疫学解析データにおいては、「標本データ集合」から「生物現象の真実」を推定しようとしていることが多い。この部分は、「生物現象の真実」を「モデル」で代用し、モデルとの適合性を検定することによって行っている。
  • 記述統計はデータ集合の特徴の要約である
  • 推定統計は、値の推定とその確からしさの計算である