第9章 Missing dataの取り扱い



  • Missing dataとは
    • Missing at random (MAR), Observed at random (OAR), missing completely at random (MCAR)
    • MCARは一番簡単だが、MCARでなくても、観測データの分布の仕方と無関係にMissingしていれば、ignorableなmissing dataといえる
  • Missin dataの対処法
    • パラメトリックな統計法では、「削除する」、「補間する」の2法で対処する
    • パーミュテーションテストでは、あるがままに対処できる
      • パーミュテーションテストでは、観測ユニットのExchangeabilityについて観測された値もMissing dataも同様にExchangeableであるとみなしているからである
      • 観測値をパーミュテーションして、対応する統計量分布が観測データの統計量を棄却域に落とさないと同様に、Missingの状態をダミー変数化し、それがもたらす統計量についての部分検定も棄却されないことの両方が満たされたときにglobalな帰無仮説が棄却されないことになる
      • これは、観測データだけ個別に検定し、また、Missingダミー変数についてだけ個別検定し、そのANDを取る、という形に分解できる
    • MCARと仮定したときには、Missingダミー変数についての個別検定を省いた検定をすればよい

第8章 Factorial designs



  • 多変量は組み合わせ項を調べたい
  • 観測がカテゴリカルな群に分かれている。その群間に違いがないことの検定をするにあたり、群を分ける尺度が1つであれば、one-way ANOVA、複数であれば、two-way ANOVA。こちらのサイトを参照
  • カテゴリ
    • 今、観測ユニット(サンプル)をカテゴリ分けするにあたり、n種類の変数があり、それぞれ、k_1,k_2,...,k_n個のカテゴリを持つとする。このとき、観測ユニットは、¥prod_{i=1}^{n}k_i通り分類される
    • データ表現
      • 観測ユニット(サンプル)がNあるとする。カテゴリ分けが¥prod_{i=1}^{n}k_i通りとする。
      • 今、このカテゴリ分けをさらにフルに組み合わせて、ありとあらゆる、カテゴリ分けの組み合わせを取り出したい。
      • たとえば、2変数があって、第1変数のカテゴリ数が(A,B)、第2変数のカテゴリ数が(1,2)であったとする。これが作る組み合わせカテゴリ分けは、2x2通り(A1,A2,B1,B2)
      • この効果項を考えるにあたり、個別のカテゴリについての効果と組み合わせ効果を考えることで、教科書では、{A},{B},{AB}としている。これは通常の多変量回帰の枠組み。これで行くと、カテゴリ数2の変数がk個あるときの効果項は2^k-1となり、このようなデータはサンプルユニット数x2-k-1 + 1(観測データ)の行列で表される。たとえば、各カテゴリ分けにつき、nサンプルを観測したとすれば、全観測は、n¥times 2^k。それぞれのサンプルの効果項についての情報を表すカラムが2^k-1、このサンプルの観測値が1カラム、なので、n¥times 2^k2^kの行列で表されることになる。
      • 少しひねって、カテゴリ分けの組み合わせ方の総当りを取ることも可能。
        • この4カテゴリ分けが作るカテゴリ分け組み合わせは第1変数の取り方だけで作られるもの、{A1,A2}vs{B1,B2}、第2変数の取り方だけで作られるもの、{A1,B1}vs{A2,B2}、第1、第2変数の取り方を組み合わせて作られるもの{A1}vs{A2,B1,B2},{A2}vs{A1,B1,B2},{B1}vs{A1,A2,B2},{B2}vs{A1,A2,B1},{A1,B2}vs{A2,B1}の7通り。これは、¥frac{_4C_1 + _4C_2+_4C_3}{2}
        • これは、epistasisのときの考え方に近い
  • Exchangeability
    • サンプルのカテゴリ分けが1次元であったときにはそのカテゴリについてパーミュテーションした。複数のカテゴリについてのパーミュテーションにあっては、その複数カテゴリカル変数の値のセットごとパーミュテーションする
  • 効果項ごとの統計量
    • 2個以上の変数について、ある変数(着目変数)の効果を他の変数の効果から独立性を検定するためには、他の変数について層別化した複数の仮説に対応した統計量を算出する必要がある(中間統計量)。この複数の層別化仮説に対応した中間統計量には、着目変数に関する量と、変数の組み合わせ項に関する量とが含まれているので、複数の中間統計量から、着目変数のみに依存する統計量と組み合わせ項に依存する統計量とを算出することで、、着目変数に対する仮説・組み合わせ項に対する仮説のそれぞれについて、パーミュテーショナルな値を得ることができる
    • このように、中間統計量から着目変数のみ・変数組み合わせ効果のみに対する統計量を算出するためには、exchangeに一定の条件が必要である。それは、ある組み合わせカテゴリから別の組み合わせカテゴリに入れ替えられるユニットの数が、対称的であるという条件である。それをSynchronized permutationsと呼ぶ
    • Synchronized permutation
      • 今、2変数の2x2=4 複合カテゴリに分けるとする。それぞれの複合カテゴリをAB,Ab,aB,abとする。このとき、カテゴリij とカテゴリxyとの入れ替わりユニット数を n(ij<->xy)と表すとする。n(AB<->aB)=n(Ab<->ab)のような入れ替えは、左項の入れ替えが、第2変数(B/b)について層別化して、Bでそろえた第1変数の入れ替え、右項の入れ替えは、第2変数(B/b)について層別化して、bでそろえた第1変数の入れ替えになっている。このように、ある変数についての入れ替えにあたって、それ以外の変数について層別化し、それについて対称的にpermutationすることが、synchronized permutationである
      • とはいえ、『どれだかわからないけれど、着目変数か組み合わせかのいずれかに違いがあるかないか』という仮説検定であれば、統計量の線形変換はしなくてもよいかもしれないけれども・・・(未確認)

第7章 ノンパラメトリック組み合わせ解析の例 7.5 SNP genotypeの場合(Isotonic inference)



  • 7.5 SNP genotypeの場合(Isotonic inference)
    • 特徴
      • 観測ユニットはAA Aa aaという2アレルの複合情報でできていること
      • Aが優位かaが優位かはわからないこと(A aは相互に対等)
      • AA ¥ge Aa ¥ge aaもしくはAA ¥le Aa ¥le aaが成り立つとみなした解析をすることが多いこと(ヘテロ接合体に突出した効果を考慮することも生物学的に可能。ここでは、教科書に沿った扱いを採用)
    • 仮説
      • 帰無仮説AA = Aa = aaが成り立つ、と表現できる
      • 対立仮説は、帰無仮説を満たさない、ではなく、AA ¥ge Aa ¥ge aaが成り立つか、もしくは、AA ¥le Aa ¥le aaが成り立つ、ただし、AA = Aa = aaは成り立たない、と表現できる
      • 統計量の立場から言うと、統計量が大きい方にぶれた極端を数えてP値を出すことを考えると同時に、統計量が小さい方にぶれた極端を数えてP値を出すことも考える(どちらかより極端な方を取る)。
      • AA ¥ge AaAA ¥le Aaについての部分検定を行い、さらに、Aa ¥ge aaもしくはAa ¥le aaについての部分検定を行って、その2部分検定を多変量検定扱いした、global検定をした結果が、このSNP1個分の検定結果
      • 複数のSNPを取り扱う場合には、1個のSNPについてのglobal検定結果(2段階目)なのに対し、それらを集めてもう1段上の階層のglobal検定を行うことになる(これはあくまでジェノタイプ検定での話し。アレル頻度検定の場合には、1SNPあたり、1統計量で話しが済むので、複数のSNPについての統合は2段階目で終わり)・・・教科書には記述はないが、途中に、ある単位(遺伝子という単位、連鎖不平衡ブロックなど)をかませるとしたら、3段階目が遺伝子、4段階目がすべて、にするべきなのだろう。さらになにかしら、遺伝要素で単位を入れるとしたら、パスウェイ、とか、分子−分子ネットワークとかで中間評価を入れることは可能

浮動小数点とパーミュテーションテストプログラミング・一致試行



パーミュテーションテストでは、多数回パーミュテーション試行ごとの統計量・確率分布の計算を行い、その値の大小関係を解析の基本とする。特に、パーミュテーションの値空間が離散的で限定的である場合には、パーミュテーション試行ごとに統計量が同一であるか否かは結果に大きく影響を及ぼす。したがって、値の一致の確認には注意を要する。

こちらの記事(リンク)にもあるように、double型等での一致比較は結果に影響を与えるので、適宜、一致と判定する誤差範囲を設定し、一致の確認は、


if(Math.abs(a-b)<THRESHOLD){
}else if(a>b){
}else if(a<b){
}

というような大小同一判定を行う必要がある

第7章 ノンパラメトリック組み合わせ解析の例 7.4 Goodness-of-fit 検定



  • 単変量のGoodness-of-fitが4.4で扱われた。この記事 に記載したとおり、そのカテゴリの扱いにより、適当な統計量がいくつかあった。
  • これを多変量に展開することは、単変量のときに検討した適当な統計量を多変量の枠組みに組み込むこと(だけ)である
  • Goodness-of-fitの場合、多変量検定において、単変量個別検定のPよりも小さなPが得られることがることに留意する

第7章 ノンパラメトリック組み合わせ解析の例 7.3 MANOVA with Mixed Data



  • 7.3 MANOVA相当
    • 単変量one-way ANOVAのパーミュテーションテストは4章であつかった。その記事はこちら。そこで確認した統計量を以下の要領でMANOVAのフレームで量的変数にの個別統計量として用い、それを多変量の枠組みで補正のステップに進めばよい。
    • データ構成
      • n観測ユニット(サンプル)、C群に分かれる(¥sum_{i=1}^C n_i =n
      • p個の量的変数
      • q個のカテゴリカル変数k_j;j=1,2,...,q
    • Global hypothesis
      • p+q個の変数の分布が、C群のすべてで同一である
    • Global 検定の構成
      • q個の個別カテゴリカル検定は、q個のPearson's chi squareを統計量として用いることが可能
      • p個の個別量的変数検定は、p個のone-way ANOVAを統計量として用いることが可能