Bayesian Logistic Regression



大規模SNPデータのロジスティックリグレッションは、独立変数の数が多く、標本数を(はるかに)越える、という問題がある("short, fat datasets")。そのことは、計算上の負荷が大きいということと、多くの変数を用いるがために起きる、"over-fitting"の問題がある。"over-fitting"の問題は、昨日の記事でコメントしたSLRにおいては、赤池情報量基準やその類似物をもちいた、ペナルティを導入することで対処していた。本日の記事のBLRにおいては、このあたりの対処法が異なり、short,fat data setsについてover-fittingを解消することを目指したアプローチである。

まず、over-fittingを避けるためには、数多くある独立変数のうち、ごく限られた数の変数のみが、従属変数予測式に登場する必要がある。これを実現するために、ごく限られた独立変数が寄与する状態を事前確率として与え、そこから、ベイジアンで因子の推定を行うことにより、独立変数の数を抑えている。ごく限られた独立変数のみが寄与するというような事前確率の与え方として、このBLRのプログラムであるBBRでは、正規事前分布もしくはLaplace事前分布を選択して実行するようにしてある。Laplace事前分布も正規事前分布も0にピークを持つ分布として与えるが、Laplaceの方は、そこにとがったピーク(微分不能)を持つように、寄与する独立変数の数が少なく、しかも寄与程度が抑えられたものとなっている。昨日紹介した複数の構造化集団データ処理法を比較する論文でも、この、Laplace事前分布を採用していた。