GEEは一般化線形回帰の発展形

  • 昨日の続き
  • GEEは多変量回帰
  • 回帰で用いる分布は、一般化線形回帰を用いることで正規分布のみならず、指定する分布を用いることができる
    • gee()では、それはfamilyという引数で指定する
    • その引数指定はgml() (一般化線形回帰関数)の場合と同じ
    • なぜなら、gee()関数は、その内部で、まずgml()による推定を行い、そのあと、クラスタごと、標本ごとにランダム変数間の相関考慮のパターンに合わせて、変数推定を変えるから
  • クラスタごと、標本ごとのランダム変数間の相関のパターンを指定する引数がcorstr
  • 以下は、gee()関数を、そのヘルプ文書内のexampleにほぼ似せて実行したときの出力の一部
> summary(gee(breaks ~ tension, id=wool, data=warpbreaks, family="poisson",corstr="exchangeable"))
Beginning Cgee S-function, @(#) geeformula.q 4.13 98/01/27
running glm to get initial regression estimate
(Intercept)    tensionM    tensionH 
  3.5942635  -0.3213204  -0.5184885 

 GEE:  GENERALIZED LINEAR MODELS FOR DEPENDENT DATA
 gee S-function, version 4.13 modified 98/01/27 (1998) 

Model:
 Link:                      Logarithm 
 Variance to Mean Relation: Poisson 
 Correlation Structure:     Exchangeable 

Call:
gee(formula = breaks ~ tension, id = wool, data = warpbreaks, 
    family = "poisson", corstr = "exchangeable")

Summary of Residuals:
       Min         1Q     Median         3Q        Max 
-22.388889  -8.138889  -2.666667   6.333333  33.611111 


Coefficients:
              Estimate Naive S.E.   Naive z Robust S.E.  Robust z
(Intercept)  3.5942635 0.09055356 39.692126  0.15869419 22.648992
tensionM    -0.3213204 0.12808197 -2.508709  0.22270597 -1.442801
tensionH    -0.5184885 0.13619100 -3.807069  0.06441329 -8.049403

Estimated Scale Parameter:  4.601903
Number of Iterations:  1

Working Correlation
            [,1]       [,2]       [,3]       [,4]       [,5]
 [1,] 1.00000000 0.02088982 0.02088982 0.02088982 0.02088982
 [2,] 0.02088982 1.00000000 0.02088982 0.02088982 0.02088982
 [3,] 0.02088982 0.02088982 1.00000000 0.02088982 0.02088982
 [4,] 0.02088982 0.02088982 0.02088982 1.00000000 0.02088982
 [5,] 0.02088982 0.02088982 0.02088982 0.02088982 1.00000000
 [6,] 0.02088982 0.02088982 0.02088982 0.02088982 0.02088982
 [7,] 0.02088982 0.02088982 0.02088982 0.02088982 0.02088982
 [8,] 0.02088982 0.02088982 0.02088982 0.02088982 0.02088982
 [9,] 0.02088982 0.02088982 0.02088982 0.02088982 0.02088982
[10,] 0.02088982 0.02088982 0.02088982 0.02088982 0.02088982
[11,] 0.02088982 0.02088982 0.02088982 0.02088982 0.02088982
[12,] 0.02088982 0.02088982 0.02088982 0.02088982 0.02088982
[13,] 0.02088982
  • まず、冒頭で以下のように出るが、これは、変数間相関がないものとして実行したglm()の推定結果
(Intercept)    tensionM    tensionH 
  3.5942635  -0.3213204  -0.5184885 
  • glm()のオプションはこの場合は、family引数を"poisson"指定しているので、ModelのVariance to Mean Relationでそのように書かれている
  • ついでに、変数間相関にどのようなパターンを指定したかもCorrelation Structureで書いてある
Model:
 Link:                      Logarithm 
 Variance to Mean Relation: Poisson 
 Correlation Structure:     Exchangeable 
  • 出力の中段にある部分が、いわゆる、GEEで変数間相関を考慮した推定値を示している。個の例では上記のglm()の推定値と以下の推定値(第1値カラム)とが同じだが、
Coefficients:
              Estimate Naive S.E.   Naive z Robust S.E.  Robust z
(Intercept)  3.5942635 0.09055356 39.692126  0.15869419 22.648992
tensionM    -0.3213204 0.12808197 -2.508709  0.22270597 -1.442801
tensionH    -0.5184885 0.13619100 -3.807069  0.06441329 -8.049403
  • たとえば、corstrを"unstructured"にすると、ことなっているのがわかる
> summary(gee(breaks ~ tension, id=wool, data=warpbreaks, corstr="unstructured"))
Beginning Cgee S-function, @(#) geeformula.q 4.13 98/01/27
running glm to get initial regression estimate
(Intercept)    tensionM    tensionH 
   36.38889   -10.00000   -14.72222 

 GEE:  GENERALIZED LINEAR MODELS FOR DEPENDENT DATA
 gee S-function, version 4.13 modified 98/01/27 (1998) 

Model:
 Link:                      Identity 
 Variance to Mean Relation: Gaussian 
 Correlation Structure:     Unstructured 

Call:
gee(formula = breaks ~ tension, id = wool, data = warpbreaks, 
    corstr = "unstructured")

Summary of Residuals:
       Min         1Q     Median         3Q        Max 
-23.751705  -8.751705  -2.622599   6.436453  32.248295 


Coefficients:
             Estimate Naive S.E.   Naive z Robust S.E.   Robust z
(Intercept)  37.75170   1.588723 23.762290  0.10135438  372.47236
tensionM    -10.00733   2.433764 -4.111875  0.29994543  -33.36385
tensionH    -16.25088   2.724930 -5.963778  0.05658338 -287.20232