メモ

  • アディティブモデル用のトレンドカイ二乗統計量とロジスティック回帰との関係を見たい
  • それが見えやすいように、分割表を表す文字・添え字を以下のように工夫する
  • 分割表\begin{pmatrix}r_{-},r_0,r_+ | R\\s_{-},s_0,s_+ | S\\-- -- --- | --\\ t_{-},t_0,t_+  | T\end{pmatrix}
  • ロジスティック回帰では、アレル本数x=-1,0,1に関してp(x):(1-p(x))の確率で表現型が1,0にわかれるとし、\log(\frac{p(x)}{1-p(x)})=a+bxを想定する
  • 分割表の尤度関数は、組み合わせの項を除くとL(a,b) = \prod_{x=-1}^1 p(x)^{r_x} (1-p(x))^{s_x}である
  • ここでs_x=t_x-r_xであることに注意すると
  • L(a,b)=\prod_{x=-1}^1 p(x)^{r_x} (1-p(x))^{t_x-r_x}=\prod_{x=-1}^1 (\frac{p(x)}{1-p(x)})^{r_x} (1-p(x))^{t_x}
  • これを分割表の内部成分r_x,s_xに依存する部分と、周辺度数にしか依存しない部分に分けてみる
    • L(a,b)=F(a,b)G(a,b)
      • F(a,b)=\prod_{x=-1}^1 (\frac{p(x)}{1-p(x)})^{r_x}
      • G(a,b)=\prod_{x=-1}^1 (1-p(x))^{t_x}
  • 対数尤度関数にすれば
    • LL(a,b)=\log(L(a,b))
      • LF(a,b)=\sum_{x=-1}^1 r_x \log(\frac{p(x)}{1-p(x)})
      • LG(a,b)=\sum_{x=-1}^1 t_x \log(1-p(x))
  • ここで
    • LF(a,b)=r_- (a-bx)+r_0 a +r_+ (a+bx) = a R + b(r_+ - r_- )
  • 最終的に分割表の内部成分はr_+ - r_-だけになった
    • これは、アディティブモデルと同じ
    • どういうことかというと…
      • r_x = e_x + \delta_xのように、期待値とそこからのずれで表せば
      • 周辺度数制約から\sum_{x=-1}^1 \delta_x = 0
      • また、r_+ - r_- = e_+ - e_- + (\delta_+ - \delta_-)
      • \delta_+ - \delta_- = \delta_+ - (-\delta_+ - \delta_0) = 2 \delta_+ + \delta_0となり、これはアディティブモデルで同じ扱いを受ける分割表の条件に一致する
  • a,bについて最尤推定するとすればLL(a,b)a,bでそれぞれ偏微分して0になることから…
    • 式変形すると
    • R=p(-1)t_{-} + p(0)t_0 + p(+1)t_+
    • (\delta_+ - \delta_-)=p(+1)t_+ - p(-1)t_{-}
    • 得られる:得られません
  • さて、2x3表だけでなくて共変量があるとすると
    • L(a,b)=\prod_{i=n}^n p(f(\mathbf{x}_i))^{d_i}
      • ただし今回はn人について。d_iは0/1のフェノタイプ
    • 先ほどと同様に変形すれば
      • L(a,b)=\prod_{i=n}^n (\frac{p(f(\mathbf{x}_i))}{1-p(f(\mathbf{x}_i))})^{d_i} (1-p(f(\mathbf{x}_i))^{1}
    • フェノタイプに依存する部分と依存しない部分に分かれていて、依存する部分は対数を取れば\log(p(\mathbf{x})/(1-p(\mathbf{x})) = f(\mathbf{x})と線形にできる
    • こうしてできた対数尤度関数を偏微分すれば、満足するべきfの係数は変数ごとに決まるから、SNPの入れ替えに対して係数は変わるが、それだけしか変わらない。一度対数尤度関数を作っておけばよし。
    • その対数尤度関数はSNPに対応する変数については、さきほどのように-1,0,1の3つの値しかとらないから、
    • R'=p(-1)t'_{-} + p(0)t'_0 + p(+1)t'_+
    • (\delta_+ - \delta_-)=p(+1)t'_+ - p(-1)t'_{-}みたいな式になるのでは:なりません
    • この(R,t_-,t_0,t_+)'の4変数がわかれば、それに対応する、「実数値の2x3表」というものがあるのでは?だったらそれについてadditive modelでトレンド検定量を計算してしまえば、ロジスティック回帰とトレンド検定の統計量は1対1対応する(のでは?)、しかも、よほどの状況でなければ順序を守った1対1対応になる…