線形回帰をエクセルで

量的形質と遺伝子マーカー(SNP)との間の関係を検定するとする。
以前、正規分布近似ができない場合として、Jonckheereに関する記事を書いた(こちら)。
今回は、正規分布近似ができるものとする。対数変換によって、正規分布近似が可能となる場合も含める。

概略。
形質が量的従属変数で、ジェノタイプが説明変数である。SNPの場合には、3つのジェノタイプの順序のある変量として0,1,2という値を対応づけるものとする。
形質の平均をy_{av}、ジェノタイプの平均をx_{av}とする。
\sum (y-y_{av}),\sum (x-x_{av}),\sum (y-y_{av})^2,\sum (x-x_{av})^2,\sum (x-x_{av})(y-y_{av})などの基本量を計算する。
線形回帰式\hat{y}=b\hat{x} + aについてb=\frac{\sum (x-x_{av})(y-y_{av})}{\sum (x-x_{av})^2},a=y_{av}-b x_{av}
である。

今、TSS=\sum (y-y_{av})^2,ESS=\sum (y-\hat{y})^2,SSR=\sum (\hat{y}-y_{av})^2と書くことにする。
R^2=\frac{SSR}{TSS}であり、Rはいわゆる(ピアソンの積率)相関係数である。s^2_{xy}=\frac{ESS}{N-2}、ただし、Nはレコード数。ここでF統計量はF_{st}=\frac{SSR}{s^2_{xy}}である。
この統計量は、自由度の組\{1,N-2\}にて評価されるべきF統計量である。

これを実行するエクセルはこちら
※ 対数変換の場合の計算に一部誤りがあったので、11月22日に訂正しました。

このエクセルに対応するjavaのソースはこちら