2006-08-01

第６章　ノンパラメトリック組み合わせ方法

補助記事はこちらとこちら
6.1 イントロダクション
- q個の変数があって(q-次元)、それについて検定するとき、適当なスカラー統計量を算出し、その値にもとづいての検定が可能。たとえば、カイ自乗値や $Hotelling’s T^2$ *1がある。パーミュテーションテストにおいても、このような統計量を用いることで、q次元データをテストすることはもちろん可能であるが、それは、この章以降で扱う、多次元データのパーミュテーションテストの本来意味するところではない
- データ構成など、基本的な表記
  - サンプルは全部で $n$ ある。これらのサンプルは、C群に分けられて、 $￥sum_{j=1}^C n_j = n$ 。観測変数はq個あって、 $X_{hji}, h=1,2,...,q$ と表せる。全レコード数は、 $n ￥times q$ 。
  - 検定したい帰無仮説は複数(k)( $H_{oi},i=1,2,...,k$ )あって、それぞれの独立性が保証されていない。それぞれの仮説の対立仮説は $H_{1i}$ 。すべての仮説がそろって棄却されないblobal 帰無仮説は $￥bigcap_{i=1}^k H_{0i}$ 。１つ以上の帰無仮説が棄却される場合は、同様に $￥bigcup_{i=1}^k H_{1i}$ と書き表せる。
  - それぞれの仮説について、パーミュテーション統計量 $T_i(￥bf{X})$ が定められているものとする
6.2 組み合わせ方、Combining frunctions
- あるデータセットがある。そのデータセットから、q個の変数それぞれについて、帰無仮説を棄却するか否かのp値が得られる。q個の変数のすべてについてのglobal 帰無仮説に関するパーミュテーション統計量はの関数であり()、Combininb functions と呼ばれる。これらは次の条件を満たす
  - $￥lambda_i ￥lt ￥lambda_i^’, i = 1,2,...,q$ について、 $￥phi(...,￥lambda_i,...) ￥ge ￥phi(...,￥lambda_i^’,...)$ :q個の変数のすべてにおいて、変数を単独で評価したときに、あるデータセットがより得られにくいときには、 $T^{’’}$ はより大きいか、すくなくとも等しい値をとる
  - q個の変数のいずれか１つでもその帰無仮説のp値が無限に小さくなるとき、 $T^{’’}$ は大きくなるが、その大きくなる値は、変数の種類によらず同じである。その極限の値は、無限大かある上限値かである
  - 0より大なるあらゆる棄却水準について前項で示した上限値未満の $T^{’’}$ が存在する
  - その他、必須条件ではないが、次のような特徴は有用である。
    - 変数ごとのp値を交換しても、global統計量は変わらない
    - このような $T^{’’}$ は、q次元について対象なので、、複数個の設定が可能な「tex:T^{''}]の中で、対象性な統計量として亜集合(Symmetric combining functions)を形成している。
- ２段階の検定プロセス
  - あるデータセットがある。q個の変数について、統計量が得られる(１つずつ、q種類)。
  - ついで、パーミュテーションデータセットにつき、同様に１つずつ、q種類の統計量が得られる。
  - 観測データセットについてq個の棄却確率が得られる
  - また、パーミュテーションデータセットのそれぞれについて、q個の変数のそれぞれについてそのデータセットで帰無仮説が棄却される確率も得られる。これは、全部でqｘパーミュテーション回数である。
  - 組み合わせ(複合)統計量は、このq個の棄却確率の関数として定義でき、観測データセットについて、その値が得られるとともに、パーミュテーションのそれぞれについても、その値が得られる。
  - 組み合わせ統計量は後述のとおり、複数のそれが知られているが、そのそれぞれについて、観測データに対する値と、パーミュテーションのそれぞれに対する値とが得られている。global棄却確率は、この組み合わせ統計量が、分布上どのくらい偏っているかで決まる。
  - 組み合わせ統計量が複数知られ、それぞれに、特徴があるので、使い分けたり、複数のそれを用いて総合判定したりする。
  - Combining functionsの例
    - Fisher omnibus combining function
      - $T_F^{’’}=-2￥sum_ilog(￥lambda_i)$
    - Liptak combining function
      - $T_L^{’’}=￥sum_i￥Phi^{-1}(1-￥lambda_i)$
    - Liptak function with logistic transformation
      - $T_{Llogit}^{’’} = ￥sum_i log((i-￥lambda_i)/￥lambda_i)$
    - Tippett combining function
      - $T_T^{’’}=max_{1￥le i ￥le k}(1-￥lambda_i)$
    - Lancaster combining function
      - $T_G^{’’}=￥sum_i￥Gamma_{r,a}^{-1}(1-￥lambda_i)$
      - $T_2^{’’}=￥sum_i(￥Phi^{-1}(1-￥lambda_i))^2$
    - Others
      - Direct combining functions
        
        複数の個別Tが同質であるときは、思い切って、それらの和をとって、その和について、観測データでの値がパーミュテーション分布での位置をｐとする方法もある。この方法が許される条件であると、圧倒的に計算量が減る



public static double CombFxFisher(double[] a){

		double ret = 0;

		for(int i=0;i<a.length;i++){

			ret += -2 * Math.log(a[i]);

		}

		return ret;

	}

	public static double CombFxLiptakLogit(double[] a){

		double ret=0;

		for(int i=0;i<a.length;i++){

			ret += Math.log((1-a[i])/a[i]);		}

		

		return ret;

	}

	public static double CombFxTippett(double[] a){

		double ret=0;

		double min =a[0];

		for(int i=1;i<a.length;i++){

			if(min>a[i]){

				min = a[i];

			}

			

		}

		ret =1-min;

		return ret;

	}

変数の数が複数なだけでなく、その変数について検定したい内容が複数化したり、変数の組み合わせ方を特定のしかたで定めたりする場合の取り扱いについての記載が少しある

6.3,6.4 Unbiasedness, consistency, asymptotic properties
- Unbiasedness と asymptotic properties については単変量での記述の拡張
- Consistency
  - 個々の変数の $￥lambda$ から $T^{’’}$ を作るcombining functionが満たすべき特徴のひとつ
  - 前述のcombining functionsはいずれも、グラフで描くと、globalな棄却水準はグラフが区切る空間のうち原点を含む側の面積(体積)で表される。このとき、１つの変数についての棄却水準が０に近づくにつれ、グラフはそれ以外の変数については、0-1のどこにあっても、棄却域に入るような形をしている。この事情はglobalな棄却水準を無限小にしても成り立つこれは、変数のうち１つでも棄却されれば、その他の変数での棄却の可能性によらず、global な仮説全体も棄却されるからである
  - このようなグラフは凹なグラフとなっている
  - combining fucntionのグラフが凸なとき、上の条件を満たすことはできない。たとえば $T^{’’}=￥sum_i(1-￥lambda_i)$ 1は、凸グラフ(凹でない）ので、上の条件を満たさない
  - このように、上の条件を満たすことをconsistentと呼び、combining functionとして、multivariate permutation testsで用いることができるための条件となっている
6.5 本章の結語
- 解析データにうまく用いることのできるcombining fucntion(s)がある場合は、それを用いることを考慮するとして、そのようなcombining function(s)がないときには、変数の数の次元で $￥lambda$ を求めるためのモンテカルロシミュレーションが必要である

*1：Hotelling's T2 Wikipediaの記事