(半)独立変数が多いこと
- トレンド統計量の天井
トレンドテストでは、カテゴリに重みを与えることで算出統計量を定める。
この日の記事にて、3種類の統計量について触れたが、この第3の統計量がゼロになるように重み付けをとるとの2つは同じ値をとる。片や自由度1でP相当値を与えるのに対し、片や、本当の自由度重み付け変数の数-1、でP相当値を与える。
また、なる関係があることから、そのように重み付け変数を与えたときには最大値をとり、その値はであるとも言い換えられる。
ゼロになるような重み付けは、次のようにして与える。
今、あるカテゴリのケースの観測数が、そのカテゴリのケース・コントロールをあわせた観測数がであったとすると、で与えればよい。
- 大量変数
今、変数が十分に多く、すべてのサンプルがデータによって完全に一意に識別できるような場合を考える。
このようなとき、各サンプルをカテゴリとみなすことによって、サンプル数Nのとき2xNのテーブルが得られる。このテーブルのすべてのセルは0または1になっている。また、このようなテーブルでを最大にするような重み付け変数は、ケースサンプルに該当するカテゴリについて1、コントロールサンプルに相当するカテゴリについて0であることが容易に確かめられて、このときのである。
このことから、サンプル数Nのとき、トレンド統計量の最大値はであることがわかる。
今、を自由度で評価すると、であるのだが、このことは、サンプル数Nについて、そのサンプルのすべてを弁別できるような観測を行った場合には、N-1自由度を許すような重み付け変数のハンドリングをすると、P値は0.5(判断としてどっちつかず)に収束する、ということを数値的に示している。サーバのメンテナンスにより、すべてが言葉なのでちょっとわかりにくい。