最尤推定値を用いた分割表検定とオッズ比の信頼区間



As the cell counts of the contingency table are based on haplotype frequency estimates, rather than counts, the test statistic will not necessarily follow a chi-square distribution, because of the increased variance of the estimates. Genet. Epidemiol. 29:313-322(2005)より

引用した文は複数ローカス相互作用解析に関する論文の一部である。本論文では、個々のローカスにつき、SNPが作るハプロタイプの頻度を最尤法によって推定し、ローカスごとにハプロタイプベースの分割表を作成する。さらに、複数のローカスの組み合わせについて、高次の分割表を作成し、ローカス・ローカス相互作用について検定する方法を論じたものである。引用した文は、個々のローカスのハプロタイプ頻度推定とその推定値を利用した単一ローカスでの関連検定につき、『推定頻度を用いている、推定量の分散は直接観測量のそれより大きい、したがって、推定頻度から作った分割表における検定は、通常のカイ自乗分布によるものではよくない』ということを述べている。

この文の意図を、phase-unknownジェノタイプデータを用いた関連検定という立場から、若干整理してみる。

本件の前置き



推定手続き：

母集団での統計量を推定するにあたって、標本での統計量は母集団の統計量の推定量とされる。しかし、推定量にはいろいろなものがあり、標本統計量が母集団統計量の推定量としてどのような「立場」を有するかはまちまちである。

標本統計量は、母集団統計量の「不偏推定量」であったり、「最尤推定量」であったり、「不偏推定量でありかつ最尤推定量」であったりする。

正規分布母集団の平均にとって、標本平均は「不偏推定量でありかつ最尤推定量」である『特殊な』推定量である。正規分布母集団にとってさえ、その他の推定量は「不偏推定量でありかつ最尤推定量」であるものはない。「標本分散」は「最尤推定量」ではあるが「不偏推定量」ではない。逆に標本データから算出される「不偏分散」は「不偏推定量」ではあるが「最尤推定量」ではない

標本をもって母集団の統計量を推定するにあたっては、「同じ標本数でより正確に推定できる」＝「同じ標本数でより狭い信頼区間で推定できる」ような統計量・推定量というのは、「できのいい」統計量・推定量であるとみなせる。この「できのよさ」を「(統計量・推定量の)有効性」と呼んだりし、この「有効性」の指標として「最小分散性」「フィッシャーの情報量」がある。平均は、最小分散性をも有する点で、「特別」である。「最小分散性」を持つ推定量を「有効推定量」とも称する。

母集団：個人という要素から構成される
個人：２本の染色体を有する
個人：発現形質という特性を有する
染色体：ハプロタイプという特性を有する
標本：要素である個人
標本の観測対象：ディプロタイプ
推定量：
- １群における推定量
  - 母集団のSNPのアレル頻度
  - 標本集団のハプロタイプのアレル頻度
  - 母集団のハプロタイプのアレル頻度
- ２群における推定量
  - 母集団のSNPが持つ形質相対危険度
  - 母集団のハプロタイプが持つ形質相対危険度

母集団のSNPのアレル頻度の推定
- 標本集団のSNPのアレル頻度を算術的に求める。今、SNPジェノタイピングは、理想的な実験系であり、標本のジェノタイピングを完全に誤ることなく観測するものとする。また、ジェノタイプからアレル頻度を算術的に求める作業*1→母集団のアレル頻度
- ハプロタイプ：個人ジェノタイプ→(推定、『有効推定量』では(多分ない))→母集団のハプロタイプ頻度
- または、ハプロタイプ：個人ジェノタイプ→(推定、『有効推定量』では(多分ない))→個人のハプロタイプ保有数→(確定的)→標本集団のハプロタイプ数→→(推定、ここでの「推定量」からの「推定」は、『平均』に近い〜『有効推定量』(に近い))→母集団のハプロタイプ頻度
- ハプロタイプの推定
  - 個人のジェノタイプから最尤法などにより、推定する。最尤法で推定する場合には、「最尤推定量」となる
  - 「不偏推定量」ではない(「最尤推定量」と「不偏推定量」が一致するのは「特別な場合」であるから)
- このように、ハプロタイプのアレル頻度の推定量は、SNPアレル頻度の推定量と性質を異にする。

異にするので、SNPアレル観測度数でのカイ自乗検定が正規分布仮定された統計量での正規分布検定できた前提がなくなっている。したがって、いわゆるカイ自乗検定とそれが示唆する棄却率・パーセンタイル点をハプロタイプのアレル頻度比率の検定には適用できない。

同じようにして、ハプロタイプによる分割表検定の構図を考える

SNP：個人ジェノタイプ→(確定的)→個人アレル保有数→(確定的)→標本集団のアレル数→(カイ自乗検定〜正規分布検定)→母集団のアレル頻度の比較・オッズ比の算出、ｐ値・信頼区間はカイ自乗検定〜正規分布より算出・・・いわゆる推定過程は１回
ハプロタイプ：個人ジェノタイプ→(推定、『有効推定量』では(多分ない))→母集団のハプロタイプ頻度→(確定)→母集団のアレル頻度の比較・オッズ比の算出、ｐ値・信頼区間はハプロタイプ頻度推定のところで生じるばらつきの程度に由来する・・・いわゆる推定過程はこちらも１回

*1:ホモｘ２＋ヘテロｘ１)/(標本数ｘ２)）も一切の不確かさが混入しないものとすると、標本のジェノタイプを観測することにより、個々のSNPのアレル頻度は、信頼区間ゼロで求められる。

母集団のSNPのアレル頻度は、このようにして求められた、標本集団のSNPのアレル頻度の値から推定される

今、標本集団のSNPのアレル頻度は、母集団のSNPのアレル頻度の非常によい推定値であるが、不偏推定量であろうか、また、最尤推定量であろうか

最尤推定量である

母集団が無限大で、標本数が十分に大きく、離散性を無視しえて、分布の端のほうであることの影響などが無視しえるとき、不偏推定量である(と思う)。この条件を満たさないとき、(厳密には)不偏推定量ではない

SNPのアレル頻度の分割表検定

SNPのアレル頻度は推定量であり、その比率について検定するということは、推定量(ばらつきがある)ものについての比について考えることであるから、ばらつきの拡大をもたらしそうであるが、そうではない。実は、比率の検定において、分割表検定をカイ自乗検定するということは、「連続的分布」でなく「離散的分布」である点を除けば、正規分布を仮定した統計量についての観測を標本の数だけ行ったことと同じであるので、観測度数についてカイ自乗検定を行うことは、正規分布仮定された統計量について、正規分布仮定による棄却率・信頼区間を用いることができる。
この場合において、信頼区間に影響を与えるのは、正規分布に従う２群についてと同様で、２群の等分散性と標本数の差である。これは、正規分布仮定のオーソドックスな理論で説明できる範囲であり、正規分布検定の離散分布拡張としてのカイ自乗検定にも「理論的」に拡張できる
２群の比率の差の検定を分割表のカイ自乗検定で行うことと、正規分布によって行うこととが同じことであることに対応する(正規分布が確率密度分布、カイ自乗分布が、その累積確率の分布) →関連記事

言い換えると、２群の比率の差の検定を標本数n1,n2にて行うことは、正規分布するとみなせる推定量について標本数n1,n2にて、その分布が同一であるという帰無仮説の棄却確率を推定することに相当する。また、２群のオッズ比とその信頼区間を推定することは、正規分布するとみなせる推定量について、２群の平均値の比とその信頼区間を推定することに相当する。

これに対し・・・ハプロタイプのアレル頻度の推定とハプロタイプのアレル頻度による分割表検定には次のような違いがある

違いの由来は次の通り
- SNPのアレル頻度が信頼区間ゼロで求められる(もしくはそのように仮定してもよいと考える十分な根拠がある)のに対して、ハプロタイプのアレル頻度は推定量であるということである
- SNP：個人ジェノタイプ→(確定的)→個人アレル保有数→(確定的)→標本集団のアレル数→(推定、しかも推定量は『平均』に近い〜『有効推定量』(に近い