ロジスティックリグレッション
いくつかの手法を比較している論文「Logistic regression protects against population structure in genetic association studies」by E. Setakis, H. Stirnadel and D.J. Balding はこちら
- 比較している手法は
- Armitage's trend test
- Genomic control
- Stepwise logistic regression (SLR)
- Bayesian ligistic regression (BLR)
- STRUCTURE/START
- AdmixMap
- おおまかに、論旨をまとめると、
- となる。
本論分のメソッドをなぞるにあたって、Armitage's trend test, GC,STRUCTURE/STARTは特別な読み解きが必要ないので割愛し、AdmixMapは相当程度に構造化が存在する場合なので、比較的均質であることを前提としたスタディデザインである場合には、あまり関係しないので、これも割愛する。論文上、SLRとBLRとは、特に大きくパフォーマンスが異ならないので、SLRのみが再現できるように注意してメソッド部分を読む。とはいえ、やはりBLRについても若干のコメントを(コメントはこちらの記事)
- 基本的にはRの基本関数であるstepを用いており、そのオプションとしてbackword(全独立変数から順次減らしていく)ことと、情報量基準のペナルティ項としては、を用いる、ということで、赤池情報量基準(AIC)でもなく、ベイズ情報量基準(BIC)でもないということだ。stepを使うときにはを与えるということ(で本当にいいのだろうか?)。ちなみに、AICでやるとすれば、、BICでやろうとすればとなって、それぞれ、いわゆるペナルティ項は、。ペナルティ自体がなのか、ペナルティはただしnはSNP数(自由度)、mは観測数ということか・・・。おそらく後者。
参考にしたサイトは、