分割表データの帰無状態からの距離

  • NxMテーブルがあり、そのセルの値をn_{ij}、その周辺度数をn_{i.},n_{.j},n_{..}と表し、独立仮説における期待値をe_{ij}とすれば
    • e_{ij}=\frac{n_{i.}n_{.j}}{n_{..}}
    • \chi^2=\sum_{i,j}\frac{(n_{ij}-e_{ij})^2}{e_{ij}}
  • n_{ij}=e_{ij}(1+k{ij})と書き表すことにすれば、
    • \chi^2=n_{..}\sum_{i,j}k_{ij}^2
      • この式は、テーブルの各セルのとりうる範囲が、テーブルの周辺度数によって変化することを、e_{ij}によって調整した上での、各セルの成分を要素とするベクトルのノルムに、テーブル全体のサイズである、n_{..}をかけたものとなっている
    • ただし、k_{ij}はすべてのaについて\sum_{i}e_{ia}k_{ia}=0、すべてのbについて\sum_{j}e_{bj}k_{bj}=0を満足し、k_{ij} \ge -1を満足する
  • 逆に言うと:観測テーブルを周辺度数で補正(期待値で補正)した、\{n_{..}k_{ij}\}なるベクトルを観測データの補正ベクトルと呼ぶことにすると、観測データの補正ベクトルは、そのノルムが等しいとき、カイ自乗検定量は互いに等しい、といえる。