パーミュテーションテスト
(非負)整数列(ポアソン乱数、負の二項分布乱数など)が生成されたとする。一見、出現する値はバラバラに見えるが、本当にバラバラなのかについて考えたい これは疑似乱数列のランダム性の評価として、様々な方法が提唱されている(たとえばこちら)問題だが、一…
パーミューテーションテストでモンテカルロを使うとすると、並列プロセスで用いる擬似乱数列も相互にランダムであることが必要である。シードから開始する擬似乱数列を用いる場合には、採取する擬似乱数を、プロセス数おきに採取させることによって、全プロ…
管理ファイルの存在・非存在ループ 第1プロセスは管理ファイルを作成する。このファイルは、オリジナル検定セットが終了してから作成する。このファイルが非存在の間は、空ループを回し、k-1プロセスは先へ進まない String dir="hogedir"; String regulatio…
参考にしたのは、こちらの記事 javaの1プロセスの中に複数のスレッドを立てたりして制御するには、こんな処理ももちろんあるわけだけれども、今は、複数のノードでの制御なので、Javaの外に制御用存在を置く 想定実行条件 (1)今、kxN回のパーミュテーシ…
パーミュテーションテスト 処理構成 オリジナル検定セットの実行 パーミュテーション試行による検定セットの実行 パーミュテーション試行による検定セットの結果とオリジナル検定セットのそれとを比較して、集計 並列化 処理の単位は、検定セットの実行 検定…
こちらのレビュー(Crit Care. 2004; 8(3): 196–199.)が簡潔にまとまっている。 Statistics review 10: Further nonparametric methods ちなみにこのレビューシリーズは、全14回(継続中?) このシリーズ1−14回へのリンクはこちら。 データ SNPのジェノタイ…
plinkではQuantitative traitに対する単一SNP検定として、Waldテスト、尤度比検定を用いている。 こちらのレビュー(Crit Care. 2004; 8(3): 196–199.)の方が簡潔にまとまっている。 Statistics review 10: Further nonparametric methods ちなみにこのレビュ…
2006年12月5日の記事に、この件を書いた。そのときは、FWERの考え方と微分の考え方から、 なる式を示した。 昨日もその別の考え方を書いた。 もうひとつの考え方としては、こう。 N=2のとき、xy平面上の1辺の長さが1の正方形を考える。頂点を{0,0,0},{0,1,…
2006年12月5日の記事に、この件を書いた。そのときは、FWERの考え方と微分の考え方から、 なる式を示した。 この式の由来を幾何学的に考える。 均一確率分布からの独立なN回のサンプリングは、辺の長さが1のN次元立方体からのサンプリングであると考える。…
12月5日の記事(こちら)に、N回の独立検定を行ったときに得られる最小P値の期待値がとなることを示した。今日の記事では、同様に行ったときに得られる、第k番目に小さいP値の期待値がとなることを示す。 均一な確率密度分布はで与えられる。 N回の独立サンプ…
均一な確率密度分布はで与えられる。 N回の独立サンプリングをしたときに以下の値が1回以上起きる確率は、FWERの考え方から示される通り、 (記事はこちら) 今、N試行中、が最小値であるということは、以下の試行が1回以上であって、以下の試行が0回である…
パーミュテーションテストに用いるcombining functionsについてはこちらの記事に記載した。 連鎖不平衡マッピングのデータに次の3関数を適用したとき、それぞれの試行で得られる、combining fucntion値の相関をコプロットしてみた。FisherとLiptakLogitとは…
パーミュテーションテストに用いるcombining functionsについてはこちらの記事に記載した。2変数に絞って、視覚的理解を助けるための資料(エクセル、図)を載せる。エクセルはこちら。掲載図のオリジナルはこちら Fisher,LiptakLogit,Tippetteの3関数の相関…
著者のホームページ(こちら)
観測データは、系列になっていて、ある値はその系列の前の値(もしくは後の値、前後両方など)の影響を受けた値であるとする。このようなとき、個々の測定系列の増減に着目しないと違いがあるのにみつからないこととなる。たとえば、身長の経時変化など。系列…
おそらく、このシリーズでは扱わない
Missing dataとは Missing at random (MAR), Observed at random (OAR), missing completely at random (MCAR) MCARは一番簡単だが、MCARでなくても、観測データの分布の仕方と無関係にMissingしていれば、ignorableなmissing dataといえる Missin dataの対…
多変量は組み合わせ項を調べたい 観測がカテゴリカルな群に分かれている。その群間に違いがないことの検定をするにあたり、群を分ける尺度が1つであれば、one-way ANOVA、複数であれば、two-way ANOVA。こちらのサイトを参照 カテゴリ 今、観測ユニット(サ…
7.5 SNP genotypeの場合(Isotonic inference) 特徴 観測ユニットはAA Aa aaという2アレルの複合情報でできていること Aが優位かaが優位かはわからないこと(A aは相互に対等) もしくはが成り立つとみなした解析をすることが多いこと(ヘテロ接合体に突出した…
パーミュテーションテストでは、多数回パーミュテーション試行ごとの統計量・確率分布の計算を行い、その値の大小関係を解析の基本とする。特に、パーミュテーションの値空間が離散的で限定的である場合には、パーミュテーション試行ごとに統計量が同一であ…
単変量のGoodness-of-fitが4.4で扱われた。この記事 に記載したとおり、そのカテゴリの扱いにより、適当な統計量がいくつかあった。 これを多変量に展開することは、単変量のときに検討した適当な統計量を多変量の枠組みに組み込むこと(だけ)である Goodnes…
7.3 MANOVA相当 単変量one-way ANOVAのパーミュテーションテストは4章であつかった。その記事はこちら。そこで確認した統計量を以下の要領でMANOVAのフレームで量的変数にの個別統計量として用い、それを多変量の枠組みで補正のステップに進めばよい。 デー…
7.2 Multivariate paired Observation 2群に属するn個体についてq種類の変数をk時刻に観測する、というようなデータ構造 各時刻において、2群の値に大小の傾向がないことを検定 教科書に記載されている個別時刻のP値が少しずれているように思えるので少々…
補助記事はこちらとこちら 6.1 イントロダクション q個の変数があって(q-次元)、それについて検定するとき、適当なスカラー統計量を算出し、その値にもとづいての検定が可能。たとえば、カイ自乗値や*1がある。パーミュテーションテストにおいても、このよう…
5.1 基本事項の復習 パーミュテーションテストでは、全パーミュテーションを調べる場合と、モンテカルロで分布を作る場合とがある。前者では、観測データの正確なパーセンタイルがでる。後者では推定分布がでる。棄却水準を考えるとき、前者では、棄却水準を…
4.5 複数の標本(n)があり、それらの違いはないものとできるとき、それぞれの標本に複数の観測(k)がなされて、n x k 行列状のデータが得られている。これについて、k変数は偏りがないことを示したいとする。具体的には、ある測定量について経時データをとり…
4.4.1 分割表は、そのままだと、パーミュテーション処理に向かないので、unit-by-unit(1サンプルずつ)が帰属カテゴリを持つようなデータにしたうえで、サンプルについてモンテカルロパーミュテーション処理をする 4.4.2 スコアづけによる検定 カテゴリには…
C>=2群のすべてが等しいか、そうでないかの検定 全nデータが、個ずつC群に分かれている。 パーミュテーションは通り 統計量としては、がわかりやすいが、それとpermutationally にequivalentな統計量はがある。また、one-way ANOVAで用いるFもT,Sと1対1の…
4.1 イントロダクション 対象となるのは、(1)2群の平均や位置の比較、(2)one-way ANOVA、(3)goodness-of-fit fir irdered categirucak varuabkes、(4)without-interaction two-way ANOVA 4.2 2群の平均値の差の検定 全部で20人のデータ。2群に…