最尤推定値を用いた分割表検定とオッズ比の信頼区間
As the cell counts of the contingency table are based on haplotype frequency estimates, rather than counts, the test statistic will not necessarily follow a chi-square distribution, because of the increased variance of the estimates. Genet. Epidemiol. 29:313-322(2005)より
引用した文は複数ローカス相互作用解析に関する論文の一部である。本論文では、個々のローカスにつき、SNPが作るハプロタイプの頻度を最尤法によって推定し、ローカスごとにハプロタイプベースの分割表を作成する。さらに、複数のローカスの組み合わせについて、高次の分割表を作成し、ローカス・ローカス相互作用について検定する方法を論じたものである。引用した文は、個々のローカスのハプロタイプ頻度推定とその推定値を利用した単一ローカスでの関連検定につき、『推定頻度を用いている、推定量の分散は直接観測量のそれより大きい、したがって、推定頻度から作った分割表における検定は、通常のカイ自乗分布によるものではよくない』ということを述べている。
この文の意図を、phase-unknownジェノタイプデータを用いた関連検定という立場から、若干整理してみる。
推定手続き:
母集団での統計量を推定するにあたって、標本での統計量は母集団の統計量の推定量とされる。しかし、推定量にはいろいろなものがあり、標本統計量が母集団統計量の推定量としてどのような「立場」を有するかはまちまちである。
標本統計量は、母集団統計量の「不偏推定量」であったり、「最尤推定量」であったり、「不偏推定量でありかつ最尤推定量」であったりする。
正規分布母集団の平均にとって、標本平均は「不偏推定量でありかつ最尤推定量」である『特殊な』推定量である。正規分布母集団にとってさえ、その他の推定量は「不偏推定量でありかつ最尤推定量」であるものはない。「標本分散」は「最尤推定量」ではあるが「不偏推定量」ではない。逆に標本データから算出される「不偏分散」は「不偏推定量」ではあるが「最尤推定量」ではない
標本をもって母集団の統計量を推定するにあたっては、「同じ標本数でより正確に推定できる」=「同じ標本数でより狭い信頼区間で推定できる」ような統計量・推定量というのは、「できのいい」統計量・推定量であるとみなせる。この「できのよさ」を「(統計量・推定量の)有効性」と呼んだりし、この「有効性」の指標として「最小分散性」「フィッシャーの情報量」がある。平均は、最小分散性をも有する点で、「特別」である。「最小分散性」を持つ推定量を「有効推定量」とも称する。
- 母集団:個人という要素から構成される
- 個人:2本の染色体を有する
- 個人:発現形質という特性を有する
- 染色体:ハプロタイプという特性を有する
- 標本:要素である個人
- 標本の観測対象:ディプロタイプ
- 推定量:
- 母集団のSNPのアレル頻度の推定
- 標本集団のSNPのアレル頻度を算術的に求める。今、SNPジェノタイピングは、理想的な実験系であり、標本のジェノタイピングを完全に誤ることなく観測するものとする。また、ジェノタイプからアレル頻度を算術的に求める作業*1→母集団のアレル頻度
- ハプロタイプ:個人ジェノタイプ→(推定、『有効推定量』では(多分ない))→母集団のハプロタイプ頻度
- または、ハプロタイプ:個人ジェノタイプ→(推定、『有効推定量』では(多分ない))→個人のハプロタイプ保有数→(確定的)→標本集団のハプロタイプ数→→(推定、ここでの「推定量」からの「推定」は、『平均』に近い〜『有効推定量』(に近い))→母集団のハプロタイプ頻度
- ハプロタイプの推定
- このように、ハプロタイプのアレル頻度の推定量は、SNPアレル頻度の推定量と性質を異にする。
異にするので、SNPアレル観測度数でのカイ自乗検定が正規分布仮定された統計量での正規分布検定できた前提がなくなっている。したがって、いわゆるカイ自乗検定とそれが示唆する棄却率・パーセンタイル点をハプロタイプのアレル頻度比率の検定には適用できない。
同じようにして、ハプロタイプによる分割表検定の構図を考える
- SNP:個人ジェノタイプ→(確定的)→個人アレル保有数→(確定的)→標本集団のアレル数→(カイ自乗検定〜正規分布検定)→母集団のアレル頻度の比較・オッズ比の算出、p値・信頼区間はカイ自乗検定〜正規分布より算出・・・いわゆる推定過程は1回
- ハプロタイプ:個人ジェノタイプ→(推定、『有効推定量』では(多分ない))→母集団のハプロタイプ頻度→(確定)→母集団のアレル頻度の比較・オッズ比の算出、p値・信頼区間はハプロタイプ頻度推定のところで生じるばらつきの程度に由来する・・・いわゆる推定過程はこちらも1回
*1:ホモx2+ヘテロx1)/(標本数x2))も一切の不確かさが混入しないものとすると、標本のジェノタイプを観測することにより、個々のSNPのアレル頻度は、信頼区間ゼロで求められる。
言い換えると、2群の比率の差の検定を標本数n1,n2にて行うことは、正規分布するとみなせる推定量について標本数n1,n2にて、その分布が同一であるという帰無仮説の棄却確率を推定することに相当する。また、2群のオッズ比とその信頼区間を推定することは、正規分布するとみなせる推定量について、2群の平均値の比とその信頼区間を推定することに相当する。