第6章 ノンパラメトリック組み合わせ方法
- 補助記事はこちらとこちら
- 6.1 イントロダクション
- 6.2 組み合わせ方、Combining frunctions
- あるデータセットがある。そのデータセットから、q個の変数それぞれについて、帰無仮説を棄却するか否かのp値が得られる。q個の変数のすべてについてのglobal 帰無仮説に関するパーミュテーション統計量はの関数であり()、Combininb functions と呼ばれる。これらは次の条件を満たす
- について、:q個の変数のすべてにおいて、変数を単独で評価したときに、あるデータセットがより得られにくいときには、はより大きいか、すくなくとも等しい値をとる
- q個の変数のいずれか1つでもその帰無仮説のp値が無限に小さくなるとき、は大きくなるが、その大きくなる値は、変数の種類によらず同じである。その極限の値は、無限大かある上限値かである
- 0より大なるあらゆる棄却水準について前項で示した上限値未満のが存在する
- その他、必須条件ではないが、次のような特徴は有用である。
- 変数ごとのp値を交換しても、global統計量は変わらない
- このようなは、q次元について対象なので、、複数個の設定が可能な「tex:T^{''}]の中で、対象性な統計量として亜集合(Symmetric combining functions)を形成している。
- 2段階の検定プロセス
- あるデータセットがある。q個の変数について、統計量が得られる(1つずつ、q種類)。
- ついで、パーミュテーションデータセットにつき、同様に1つずつ、q種類の統計量が得られる。
- 観測データセットについてq個の棄却確率が得られる
- また、パーミュテーションデータセットのそれぞれについて、q個の変数のそれぞれについてそのデータセットで帰無仮説が棄却される確率も得られる。これは、全部でqxパーミュテーション回数である。
- 組み合わせ(複合)統計量は、このq個の棄却確率の関数として定義でき、観測データセットについて、その値が得られるとともに、パーミュテーションのそれぞれについても、その値が得られる。
- 組み合わせ統計量は後述のとおり、複数のそれが知られているが、そのそれぞれについて、観測データに対する値と、パーミュテーションのそれぞれに対する値とが得られている。global棄却確率は、この組み合わせ統計量が、分布上どのくらい偏っているかで決まる。
- 組み合わせ統計量が複数知られ、それぞれに、特徴があるので、使い分けたり、複数のそれを用いて総合判定したりする。
- Combining functionsの例
- Fisher omnibus combining function
- Liptak combining function
- Liptak function with logistic transformation
- Tippett combining function
- Lancaster combining function
- Others
- Direct combining functions
- 複数の個別Tが同質であるときは、思い切って、それらの和をとって、その和について、観測データでの値がパーミュテーション分布での位置をpとする方法もある。この方法が許される条件であると、圧倒的に計算量が減る
- Direct combining functions
- Fisher omnibus combining function
- あるデータセットがある。そのデータセットから、q個の変数それぞれについて、帰無仮説を棄却するか否かのp値が得られる。q個の変数のすべてについてのglobal 帰無仮説に関するパーミュテーション統計量はの関数であり()、Combininb functions と呼ばれる。これらは次の条件を満たす
public static double CombFxFisher(double[] a){
double ret = 0;
for(int i=0;i<a.length;i++){
ret += -2 * Math.log(a[i]);
}
return ret;
}
public static double CombFxLiptakLogit(double[] a){
double ret=0;
for(int i=0;i<a.length;i++){
ret += Math.log((1-a[i])/a[i]); }
return ret;
}
public static double CombFxTippett(double[] a){
double ret=0;
double min =a[0];
for(int i=1;i<a.length;i++){
if(min>a[i]){
min = a[i];
}
}
ret =1-min;
return ret;
}
- 変数の数が複数なだけでなく、その変数について検定したい内容が複数化したり、変数の組み合わせ方を特定のしかたで定めたりする場合の取り扱いについての記載が少しある
- 6.3,6.4 Unbiasedness, consistency, asymptotic properties
- Unbiasedness と asymptotic properties については単変量での記述の拡張
- Consistency
- 個々の変数のからを作るcombining functionが満たすべき特徴のひとつ
- 前述のcombining functionsはいずれも、グラフで描くと、globalな棄却水準はグラフが区切る空間のうち原点を含む側の面積(体積)で表される。このとき、1つの変数についての棄却水準が0に近づくにつれ、グラフはそれ以外の変数については、0-1のどこにあっても、棄却域に入るような形をしている。この事情はglobalな棄却水準を無限小にしても成り立つこれは、変数のうち1つでも棄却されれば、その他の変数での棄却の可能性によらず、global な仮説全体も棄却されるからである
- このようなグラフは凹なグラフとなっている
- combining fucntionのグラフが凸なとき、上の条件を満たすことはできない。たとえば1は、凸グラフ(凹でない)ので、上の条件を満たさない
- このように、上の条件を満たすことをconsistentと呼び、combining functionとして、multivariate permutation testsで用いることができるための条件となっている
- 6.5 本章の結語
- 解析データにうまく用いることのできるcombining fucntion(s)がある場合は、それを用いることを考慮するとして、そのようなcombining function(s)がないときには、変数の数の次元でを求めるためのモンテカルロシミュレーションが必要である
*1:Hotelling's T2 Wikipediaの記事