分割表

比較する

Rには固定周辺度数を引数に分割表を乱数発生する関数r2dtable()がある(こちら) Patefield's algorithmを用いる 地道にやるのとPatefield's でやるのとの違いはどれくらい? ほとんど違わない Nr<-2 Nc<-2 M<-matrix(sample(1:100,Nr*Nc,replace=TRUE),Nr,Nc)…

SpherePower()

Sweave()を使って解説文書のメモを作る Sweaveのファイル"FxPowerSphere.Rnw"(末尾)を作って Sweave("FxPowerSphere.Rnw") と実行するとできる"FxPowerSphere.tex"をてふ処理してPDFにしたのがこちら "SpherePower.R"関数はこちら "FxPowerSphere.Rnw"は以下…

正単体座標系で分割表を空間配置する

昨日の続き 昨日の正単体座標系では、重心を中心とする正単体頂点の位置ベクトルを用いて、和の固定された変数のセットを次元空間の点に対応付けた 今日は、周辺度数が固定された2次元分割表(分割表)の個の変数のセットを次元空間に対応付けるような「正単…

正単体座標系

『正単体座標系』は、和が一定であるという制約を持つ個の変数のセットに対して、次元空間座標を対応付ける系である 以下、説明 正単体 正単体とは、2次元空間における正三角形を任意の次元に拡張したものである の場合は線分 の場合は正三角形 の場合は正…

0と1ばかりの分割表

N行M列の分割表があるとする とする とする はサンプル数でもある このとき、この分割表のピアソンのカイ二乗値は とも書ける これはとも書ける。疎な表(0が多い)ときはこの式は加算する項の数が少なくて便利 次のような分割表を対象とする 列の和はすべて…

分割表の「ひらき」

昨日の続き NxMの分割表を考える すべてのサンプルについて、(サンプル数)x(N+M)の表にデータを格納することとする 行数がサンプル数 すべての行には2つの1が立っていて、他は0 N列のうちのいずれかに1が一つ、残りのM列のうちのいずれかに1が一つ、と…

観察しやすいテーブル

ある少なくない標本数で、多数のマーカーを調べ、マーカーについて検定を繰り返すことが、GWASでは行われる 言い換えると、巨大な(標本数xマーカー数)の疎な観測テーブルについて、多数の低自由度検定を実施していることになる この論文で示したように、こ…

SNPの2x3分割表MAX検定P値の論文

Genet Epidemiol. 2010 Sep;34(6):543-51.Estimation of P-value of MAX test with double triangle diagram for 2 x 3 SNP case-control tables. Hirosawa K, Kawaguchi T, Matsuda F, Yamada R. アプリケーション公開サイト(整備する必要があるのだが…、…

順序のあるカテゴリカルデータ分割表解析

Joint Statistical Meeting 2010 @ Vancouverの講義(2010/08/02)(主なセッションはこちら) Analysis of Ordinal Categorical Data 種本 Analysis of Ordinal Categorical Data (Wiley Series in Probability and Statistics)作者: Alan Agresti出版社/メーカ…

凸包断面

原点を中心とする多次元単位正球Qがあるとする Qの表面上に複数の点Tを置く Tの各点を通り、Sに接するような接面がTの個数あるが、これによって囲まれ、原点を含むような立体は、凸包である。この凸包Sを考える 相互に直交する2つの単位ベクトルA,Bがあると…

r2dtable()関数

こちらで、固定した周辺度数のランダム分割表の発生関数r2dtable()を教えていただきました 発生のアルゴリズムはPatefield's algorithmというものだそうです。 RではCで書かれたR_r2dtable()関数を呼び出しています veganというパッケージには、行列(分割表)…

マハラノビス距離と楕円とカイ自乗値

マハラノビス距離のウィキはこちら NxM分割表を自由度次元空間に配置する話しがあって、その空間における分割表座標と独立仮説下期待度数表の座標との間のマハラノビス距離がピアソンのカイ自乗統計量である話 > N<-4;M<-6 > T<-matrix(runif(N*M),N,M) > ch…

NxM表検定を多次元楕円で一般化

ゴールデンウィークに少し整理 PDF

分割表を図示

TablePlot(N=100,M=100,r=0.7)TablePlot<-function(N=2,M=2,Ns=1000,r=0.5,k1=10,k2=10){ first<-sample(1:N,Ns,prob=rep(k1,N),replace=TRUE) second<-sample(1:M,Ns,prob=rep(k2,M),replace=TRUE) Nr<-Ns*r first[1:Nr]<-sort(first[1:Nr]) second[1:Nr]<-…

適当に分割表を作る

総サンプル数を固定して、行数、列数を指定して適当に周辺度数を与えて、その期待度数の表を作る # <desc> 総サンプル数がnで、行数がs、列数がtの分割表を適当に作る。自然数nをsに分けるとき、長さnの数列のn-1の分割可能箇所からs箇所を選ぶことで可能なので、</desc>…

高次元分割表で正確に

昨日は高次元分割表の場合列挙をやってみた。列挙ができたら(所要時間の問題はさて置き)、その正確生起確率が計算できて、それを使って、「Fisherの正確検定」もできることになる。 たとえば・・・ (000,001,010,011,100,101,110,111)のパターンが(100,0,0,1…

高次元分割表

昨日、N個のものをk種類に分けるわけ方について、各種類に上限数があるときに、何通りの分け方があるかについて書いた。 少し、変える。 N個のものがあって、第1の因子では、あるわけ方をされ、第2の因子では、別の分け方をされ、。。。と高次に分けられてい…

場合分けを数え上げる

今、k種類の椅子がそれぞれ、n1,n2,...,nk個あるとする。そこに、m人の人が座るとする。ただし、なので、全員が座れる。このようなときに、k種類のそれぞれに座る人数を、m1,m2,..,mk ()としたとき、このm1,..,mkのパターンは何通りあるのだろう。。。Rのソ…

簡単にシミュレーション

周辺度数を与えて、ランダムに2x3表を作る sample2x3<-function(m1=c(100,200),m2=c(50,100,150),n=1){ #出力用の行列を用意する answer<-matrix(rep(0,n*6),nrow=n) sum<-sum(m1) # 第1群と第2群の人数和を出す m1m2<-m2[1]+m2[2] # 1から総人数のシ…

Rで2x3表を網羅的に作ってみる

2x3表 *1があるとする。 これと周辺度数を同じくする表を全部作りたい。。。その数も知りたい。。。 Rでやるなら makeTables<-function(t){ t2<-matrix(t,nrow=2) m1<-funcm1(t2) m2<-funcm2(t2) m<-sum(t2) x<-seq(0,min(m1[1],m2[1])) y<-seq(0,min(m1[1],…

自由度2

カイ自乗分布の確率密度関数(pdf);自由度k カイ自乗分布に従う統計量に関する検定p値は、カイ自乗分布の累積密度関数(cdf)を使うと;自由度k であるから ここで、 であるから k=2のとき

[[幾何][正確検定]テーブル数を数える

2x3分割表は自由度2である ある周辺度数が与えられたときに、その周辺度数を満足するテーブルの取り方はいくつあるか これを幾何的に計算して出してみよう 掲載図の原図はこちら

最大値

n次元分割表を考える。その分割表は総数が1となるようにセルの値を標準化してあるものとする。 2次元の分割表NxM (N n次元に拡張する。次のような特殊なサイズとする。 NxNx...xNxM M>=Nなる多次元分割表(すべての次元の長さが等しいか、そうでないならば…

分割表データの帰無状態からの距離

NxMテーブルがあり、そのセルの値を、その周辺度数をと表し、独立仮説における期待値をとすれば と書き表すことにすれば、 この式は、テーブルの各セルのとりうる範囲が、テーブルの周辺度数によって変化することを、によって調整した上での、各セルの成分を…

0の多い分割表

n行m列の分割表(がある。今、第1列から、第m-1列は、第1行にのみ非0の値が入り、残りの行は0であり、第m列は、第1行の値が0で、残りの行には非0の値が入っているような、0ばかりの表があったとする。このような表のカイ自乗値はサンプル総数に一致する。 今…

複数の検定でコントロールを共用にすること

メモ > pool<-scan(file="B_pool.txt",sep="\t") Read 17084 items > pool<-scan(file="B_pool.txt",sep="\t") Read 2050 items > ind<-scan(file="B_ind.txt",sep="\t") Read 2550 items > indmat<-matrix(ind,nrow=50) > persp(indmat,phi=0,theta=-45,sha…

計算回数を減らす

たくさんの分割表がある。そのセルの数値がすべて同一な表は、その表に対して何の計算をするにしろ検定結果が同じである(もちろん)。 周辺度数が同じだが、各セルの値がことなる場合もある。このような場合は、その分割表・周辺度数が網羅しうる分割表パター…

組合せ

2x2分割表には、縦軸と横軸にそれぞれ周辺度数があって、その数は、2x2=4。さらに、全セルの総和がある。この2x2の分割表は、平面に書き表せていることからわかるように、2次元の分割表である。周辺度数のことを考えるとき、2つの次元のうち、2つともをこ…

Chi-square test for trend in 2xk tables とANOVAの関係

2xk分割表を自由度k-1で検定するときには、k個のカテゴリの順序を考慮していない それを考慮したいことはある。その方法の1つが、Chi-square test for trend in 2xk tables である これは、カテゴリの順序に応じて、ダミー値を与え、それを用いて、総平方和…