順序のあるカテゴリカルデータ - ryamadaの遺伝学・遺伝統計学メモ

関連記事はこちら
Quasi-likelihood
- 参考PDFはこちら
- こちらも参考
Marginalized multilevel modelがGEEの話しでは出てくる
- Wikiはこちら
- このWikiを見るに、こういうこと
  - ある「平均となる値」が一つあって、それに単変量正規分布に従うぶれを考える
  - その正規分布な値から、１階層上がる(下がる)ときには、「正規分布な値」に加えてずれの項を入れる
  - 階層は「ヒエラルキー」にしてあって、どんどん積み重ねられる
  - こう考えるときには、「はじめの平均値」に、各段階の分散を全部足し合わせた「単純な分布」を考えるのと同じこと
  - しかしながら、観測データから推定・回帰する手続き的には、段々に正規分布に従う残差で剥いていくことができる
  - ここでは、段階は相互に独立
- と、こういう話
- 正規分布の再生性(Wiki記事)みたいな話
- つまるところ、複数の変数があって、それらにランダムな要素を持たせるけれど、それらに独立を仮定していますよ、というのが、Marginal modelということ(のように思います)
- GEEはこの変数のランダムさを独立としないので、GEEの前座として、Marginal modelが出てくる
- 残差をどんどん周辺に追いやるから"Marginal/Marginalize"と言うのか・・・？
- Marginal multilevel modelの話しはRで書けばおおざっぱには次のような感じ？

Ns<-10000
X<-rep(0,Ns)
Nh<-10
ms<-c(runif(1)*100,rep(0,Nh-1))
sds<-runif(Nh)
for(i in 1:Nh){
	tmpX<-rnorm(Ns,ms[i],sds[i])
	X<-X+tmpX
}

sum(sds^2)
sd(X)^2

mean(X)
ms

GEEでは複数の観察が何かでひとまとめにできるような形でなされることを想定している
たとえば、ある治験において、治療群とプラセボ群はそれぞれクラスタである
今、経時的に興味ある観測カテゴリ(順序あり、病状とか)を観察するとき、ある個人は何かのクラスタに属していて、そのクラスタの影響を受けるとともに、個人に特有な条件の影響も受けていると考える
観察結果はクラスタごとに「平均値」が違うだろうし、「個人」ごとにも違うだろう
また、経時的な観察データには相関があると考えられるが、その相関の強さは、「個人」の影響も受けるだろうし、クラスタ(治療グループ)の影響も受けるだろう
その「観察データ」間にあってもよい相関を推定してやる
そのときに、どのくらい、「細かく」相関を想定してやるか(どれくらいたくさんの変数を使うか)が問題になる
また、想定する相関も、てんでばらばらに変数で置くのではなく、ある程度の規則(順序あり観測カテゴリの近さに応じて相関のありなしを区別するとか、相関の強さを変えてやるとか、カテゴリの近さ遠さは一切無視して、一様な相関を想定してやるとか、が考えられる
GEEで共通するのは、クラスタ間では、この変数の値を統一しないでいこうじゃないか、というところ
さて、Rのgeeパッケージでは、ここのところをcorstrという引数で指定している。このcorstrに、こちらでいうところの「代表的な相関構造」と呼ぶ共分散行列構造を指定し、その値を推定してやるのがGEE