第９限検定２モデルと尤度・尤度比検定(推定統計) 遺伝統計学のための統計学基礎

モデルには、変数がある
比較するモデルでそれぞれ用いる相互に独立に変化する(できる)変数の数がそれぞれの仮説の自由度であり、２仮説の変数の数の差が、尤度比検定の自由度である
モデルの変数に応じて、観測データの生起確率が計算できるものとする
今、観測データが得られる確率を計算する
複数の観測標本が形作る確率は、個々の標本がその値をとる確率(0以上1以下)の掛け算である
- したがって、どんどん小さくなる
- 計算しにくいので対数をとる
- 対数を用いると、標本すべての確率は、個々の標本の確率を対数化したものを足し合わせたものになる(計算が簡単である)。これがある仮説に基づいて、観測データが得られる

対数尤度

分割表データでは、掛け合わせるほかにN個からM個を取り出す組み合わせも考慮しなくては(本当は)いけないが、尤度比検定(２つの仮説において、同じ組み合わせ係数を使って算出する対数尤度の差を使う。対数尤度の計算において組み合わせ係数は定数となり、２つの仮説で共通で、相殺されるので、わざわざ計算しないですませる(すませてよい場合も多い)))
このようにして得られた、仮説の対数尤度の差は２倍すると『漸近的にカイ自乗分布に近づく』(＝カイ自乗値としてそれに基づいてp値を求めてよい)

習うより、慣れろ
- 計算用のエクセルはこちら
- ２ｘ２分割表検定について考えている
  - 黄色のセル４個に適当な整数を入力すると、左半分でカイ自乗検定、左半分で尤度比検定をしている
  - 期待値分割表を作り、それを使いながらカイ自乗値を計算することができる。p値も出せる
- 今、対立仮説対帰無仮説で尤度比検定をする
  - 対立仮説では、ケースの母比率が今、観測されているケースデータの比率に一致し、コントロールのそれも同様であるものとする(この仮説では、２つの比率を設定できる=自由度２)
  - 帰無仮説では、ケースとコントロールの全標本をまとめた上で計算される比率を全体の母比率であり、ケースもコントロールもその共通母比率を反映したデータであるものとする(この仮説では比率が１つしか設定できていない＝自由度１)
  - ２仮説の変数の個数の差は１であるから、この尤度比検定の自由度は１(通常のカイ自乗検定の自由度と同じ)
尤度比検定で使う対数尤度は底がe(エクセルの関数ではLN)であることに注意。自然対数で求めた対数尤度の差の２倍がカイ自乗統計量に近似される。他方、LODスコアというときは、底が10の常用対数である点に注意(このことは、連鎖不平衡の信用度評価をLODで表すHaploviewと同様の指標を自然対数で算出するArlequinとでの違いについての記事(こちら)でも言及)