- 昨日の続き
- GEEは多変量回帰
- 回帰で用いる分布は、一般化線形回帰を用いることで正規分布のみならず、指定する分布を用いることができる
- gee()では、それはfamilyという引数で指定する
- その引数指定はgml() (一般化線形回帰関数)の場合と同じ
- なぜなら、gee()関数は、その内部で、まずgml()による推定を行い、そのあと、クラスタごと、標本ごとにランダム変数間の相関考慮のパターンに合わせて、変数推定を変えるから
- クラスタごと、標本ごとのランダム変数間の相関のパターンを指定する引数がcorstr
- 以下は、gee()関数を、そのヘルプ文書内のexampleにほぼ似せて実行したときの出力の一部
> summary(gee(breaks ~ tension, id=wool, data=warpbreaks, family="poisson",corstr="exchangeable"))
Beginning Cgee S-function, @(#) geeformula.q 4.13 98/01/27
running glm to get initial regression estimate
(Intercept) tensionM tensionH
3.5942635 -0.3213204 -0.5184885
GEE: GENERALIZED LINEAR MODELS FOR DEPENDENT DATA
gee S-function, version 4.13 modified 98/01/27 (1998)
Model:
Link: Logarithm
Variance to Mean Relation: Poisson
Correlation Structure: Exchangeable
Call:
gee(formula = breaks ~ tension, id = wool, data = warpbreaks,
family = "poisson", corstr = "exchangeable")
Summary of Residuals:
Min 1Q Median 3Q Max
-22.388889 -8.138889 -2.666667 6.333333 33.611111
Coefficients:
Estimate Naive S.E. Naive z Robust S.E. Robust z
(Intercept) 3.5942635 0.09055356 39.692126 0.15869419 22.648992
tensionM -0.3213204 0.12808197 -2.508709 0.22270597 -1.442801
tensionH -0.5184885 0.13619100 -3.807069 0.06441329 -8.049403
Estimated Scale Parameter: 4.601903
Number of Iterations: 1
Working Correlation
[,1] [,2] [,3] [,4] [,5]
[1,] 1.00000000 0.02088982 0.02088982 0.02088982 0.02088982
[2,] 0.02088982 1.00000000 0.02088982 0.02088982 0.02088982
[3,] 0.02088982 0.02088982 1.00000000 0.02088982 0.02088982
[4,] 0.02088982 0.02088982 0.02088982 1.00000000 0.02088982
[5,] 0.02088982 0.02088982 0.02088982 0.02088982 1.00000000
[6,] 0.02088982 0.02088982 0.02088982 0.02088982 0.02088982
[7,] 0.02088982 0.02088982 0.02088982 0.02088982 0.02088982
[8,] 0.02088982 0.02088982 0.02088982 0.02088982 0.02088982
[9,] 0.02088982 0.02088982 0.02088982 0.02088982 0.02088982
[10,] 0.02088982 0.02088982 0.02088982 0.02088982 0.02088982
[11,] 0.02088982 0.02088982 0.02088982 0.02088982 0.02088982
[12,] 0.02088982 0.02088982 0.02088982 0.02088982 0.02088982
[13,] 0.02088982
- まず、冒頭で以下のように出るが、これは、変数間相関がないものとして実行したglm()の推定結果
(Intercept) tensionM tensionH
3.5942635 -0.3213204 -0.5184885
- glm()のオプションはこの場合は、family引数を"poisson"指定しているので、ModelのVariance to Mean Relationでそのように書かれている
- ついでに、変数間相関にどのようなパターンを指定したかもCorrelation Structureで書いてある
Model:
Link: Logarithm
Variance to Mean Relation: Poisson
Correlation Structure: Exchangeable
- 出力の中段にある部分が、いわゆる、GEEで変数間相関を考慮した推定値を示している。個の例では上記のglm()の推定値と以下の推定値(第1値カラム)とが同じだが、
Coefficients:
Estimate Naive S.E. Naive z Robust S.E. Robust z
(Intercept) 3.5942635 0.09055356 39.692126 0.15869419 22.648992
tensionM -0.3213204 0.12808197 -2.508709 0.22270597 -1.442801
tensionH -0.5184885 0.13619100 -3.807069 0.06441329 -8.049403
- たとえば、corstrを"unstructured"にすると、ことなっているのがわかる
> summary(gee(breaks ~ tension, id=wool, data=warpbreaks, corstr="unstructured"))
Beginning Cgee S-function, @(#) geeformula.q 4.13 98/01/27
running glm to get initial regression estimate
(Intercept) tensionM tensionH
36.38889 -10.00000 -14.72222
GEE: GENERALIZED LINEAR MODELS FOR DEPENDENT DATA
gee S-function, version 4.13 modified 98/01/27 (1998)
Model:
Link: Identity
Variance to Mean Relation: Gaussian
Correlation Structure: Unstructured
Call:
gee(formula = breaks ~ tension, id = wool, data = warpbreaks,
corstr = "unstructured")
Summary of Residuals:
Min 1Q Median 3Q Max
-23.751705 -8.751705 -2.622599 6.436453 32.248295
Coefficients:
Estimate Naive S.E. Naive z Robust S.E. Robust z
(Intercept) 37.75170 1.588723 23.762290 0.10135438 372.47236
tensionM -10.00733 2.433764 -4.111875 0.29994543 -33.36385
tensionH -16.25088 2.724930 -5.963778 0.05658338 -287.20232