(半)独立変数が多いこと



  • トレンド統計量の天井

トレンドテストでは、カテゴリに重みを与えることで算出統計量を定める。

この日の記事にて、3種類の統計量¥chi^2_{heterogeneity},¥chi^2_{trend},¥chi^2_{deviation from model}について触れたが、この第3の統計量¥chi^2_{deviation from model}がゼロになるように重み付けをとると¥chi^2{heterogeneity},¥chi^2_{trend}の2つは同じ値をとる。片や自由度1でP相当値を与えるのに対し、片や、本当の自由度重み付け変数の数-1、でP相当値を与える。

また、¥chi^2_{heterogeneity}=¥chi^2_{trend}+¥chi^2_{deviation from model}なる関係があることから、そのように重み付け変数を与えたときに¥chi^2_{trend}は最大値をとり、その値は¥chi^2_{heterogeneity}であるとも言い換えられる。

ゼロになるような重み付けは、次のようにして与える。

今、あるカテゴリのケースの観測数がn_i、そのカテゴリのケース・コントロールをあわせた観測数がs_iであったとすると、w_i=¥frac{n_i}{s_i}で与えればよい。

  • 大量変数

今、変数が十分に多く、すべてのサンプルがデータによって完全に一意に識別できるような場合を考える。

このようなとき、各サンプルをカテゴリとみなすことによって、サンプル数Nのとき2xNのテーブルが得られる。このテーブルのすべてのセルは0または1になっている。また、このようなテーブルで¥chi^2_{trend}を最大にするような重み付け変数は、ケースサンプルに該当するカテゴリについて1、コントロールサンプルに相当するカテゴリについて0であることが容易に確かめられて、このときの¥chi^2_{heterogeneity}=¥chi^2_{trend}=Nである。

このことから、サンプル数Nのとき、トレンド統計量の最大値はNであることがわかる。

今、¥chi_{heterogeneity}=Nを自由度N-1で評価すると、limit_{N ¥rightarrow ¥infty} p(¥chi_{heterogeneity}=N,df=N-1)=0.5であるのだが、このことは、サンプル数Nについて、そのサンプルのすべてを弁別できるような観測を行った場合には、N-1自由度を許すような重み付け変数のハンドリングをすると、P値は0.5(判断としてどっちつかず)に収束する、ということを数値的に示している。サーバのメンテナンスにより、すべてが言葉なのでちょっとわかりにくい。