漸近近似ベイズ因子

  • こちらにGWASでのSNP関連検定に漸近近似ベイズ因子を用いる論文について書いた。
  • 以下、20080821と重複になる部分もあるが、漸近近似に中心を移して書く。
  • 事前確率分布のおき方によっては、解析的にベイズ因子を算出するのは難しい。
  • 適当な事前確率分布を仮定して、計算を楽にしよう。
  • 必要な事前情報
    • リスクローカスがあったとして、そのローカスの「相対危険度」の強さに関する分布
    • データのサンプリングバイアス
  • リスクの事前分布
    • リスクローカスのリスクの分布は、相対危険度r=e^{\theta}としたときの\thetaが平均0正規分布になると仮定する(こうすると、データのサンプリングバイアスの分布も、正規分布近似をすることができるので、楽だし、そのように仮定することに、『生物学的実感上、無理がないから』)。
    • \theta \sim N(0,W)であるから、Wを与える必要がある。リスクアレルのf(たとえば95%)が\frac{1}{g} \le r \le g(-log(g) \le \theta log(g))にあると仮定すると、Rで言えば、以下のような関係になる、そんなWを仮定していることになる。
pnorm(log(g),mean=0,sd=sqrt(W),lower.tail=FALSE)*2=1-f
  • W=\frac{log(g)}{qnorm(\frac{1+f}{2},mean=0,sd=1)}
getW<-function(g,f){
ret<-log(g)/qnorm((1+f)/2,mean=0,sd=1)
return(ret)
}
  • データのサンプリングバイアス
    • データのサンプリングによる分布は、2x2表の場合には、一般に、以下の式で与えることになる。V=\frac{1}{n1}(\frac{1}{n11}+\frac{1}{n12})+\frac{1}{n2}(\frac{1}{n21}+\frac{1}{n22})
    • SNPの2x3表に対する、ロジスティック回帰(これだと、リスクをe^{\theta}としているので、このモデルによる扱いが適当)のときには、統計パッケージで得られる。
      • 例として、以下の、Coefficients: の G のEstimated の 0.5073 が\hat{\theta}、次のカラムのStd. Errorが\sqrt{V}、次のz valueZ
data<-read.table(file="infile.txt")
P<-data[,1];G<-data[,2];
result<-glm(formula = P ~ G, family = binomial)
summary(result)

Call:
glm(formula = P ~ G, family = binomial)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-1.36225  -1.14255   0.03196   1.21268   1.43593  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)   
(Intercept)  -0.5898     0.2627  -2.246  0.02473 * 
G            0.5073     0.1880   2.699  0.00696 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 277.26  on 199  degrees of freedom
Residual deviance: 269.73  on 198  degrees of freedom
AIC: 273.73

Number of Fisher Scoring iterations: 4
  • V、Wが決まったら、ABFは計算できて、上の例だと、V=0.1880^2Z=2.699、Wはg=1.5,f=0.95なら、W=0.21^2
    • ABF=\frac{1}{\sqrt{1-k}}e^{-\frac{Z^2}{2}k}
      • ただしk=\frac{W}{V+W}Z=\frac{\hat{\theta}}{\sqrt{V}}
        • ただし、\hat{\theta}はロジスティック回帰での\theta最尤推定
          • 形質に{0,1}、ジェノタイプに{0,1,2}となっているファイルがあれば