ロジスティックリグレッション - ryamadaの遺伝学・遺伝統計学メモ

いくつかの手法を比較している論文「Logistic regression protects against population structure in genetic association studies」by E. Setakis, H. Stirnadel and D.J. Balding はこちら

比較している手法は
- Armitage's trend test
- Genomic control
- Stepwise logistic regression (SLR)
- Bayesian ligistic regression (BLR)
- STRUCTURE/START
- AdmixMap
おおまかに、論旨をまとめると、
- GCはFalse positivesについて堅固だが、集団構造化のために増加する、False negativeに対処のしようがない点がつらい。
- ロジスティックリグレッションは、Wang et al.(2005)らが示したように、形質関連多型とまったく無縁だが、集団構造を反映している多型のデータによって補正することを可能とする。これは魅力的。
- というわけで、情報量基準を最適化するロジスティックリグレッションはよさそうだ、たしかに、シミュレーションデータでのパフォーマンスがよい
となる。

本論分のメソッドをなぞるにあたって、Armitage's trend test, GC,STRUCTURE/STARTは特別な読み解きが必要ないので割愛し、AdmixMapは相当程度に構造化が存在する場合なので、比較的均質であることを前提としたスタディデザインである場合には、あまり関係しないので、これも割愛する。論文上、SLRとBLRとは、特に大きくパフォーマンスが異ならないので、SLRのみが再現できるように注意してメソッド部分を読む。とはいえ、やはりBLRについても若干のコメントを(コメントはこちらの記事)

基本的にはRの基本関数であるstepを用いており、そのオプションとしてbackword(全独立変数から順次減らしていく)ことと、情報量基準のペナルティ項としては、 $4log(m)$ を用いる、ということで、赤池情報量基準(AIC)でもなく、ベイズ情報量基準(BIC)でもないということだ。stepを使うときには $k=￥frac{4log(m)}{n}$ を与えるということ(で本当にいいのだろうか？）。ちなみに、AICでやるとすれば、 $k=2$ 、BICでやろうとすれば $k=log(m)$ となって、それぞれ、いわゆるペナルティ項は $2n$ 、 $n￥times log(m)$ 。ペナルティ自体が $4 log(m)$ なのか、ペナルティは $4log(m)￥times n$ ただしnはSNP数(自由度)、mは観測数ということか・・・。おそらく後者。