Java
ごく大雑把なつくりのドリフトシミュレーションソース package popGenet;public class Drift { /** * @param args */ int initpopsize; double mutrate; int numgen; //int popsizepattern;//0 constant, 1 exponential double expcoeff; public static void…
Regularized Gamma functionをJavaで使う用があって、Apache JakartaプロジェクトのCommons Mathを入れることにした。パスの通し方など、基本的なところがまったくわかっていないので、右往左往した。結果は以下の通り。 Commonsのサイトから Mathを選んで、…
SNPジェノタイプデータの、Armitage's trend testについての記事を3月に書いた(こちら)。 式は ただし、2x3の分割表が のような場合 少し修正。 3月の記事の計算式は、Trend-Chiテストと別称する方がわかりやすい。 Cochran-Armitage trendテストでは、上…
補足記事がこちら ※この記事の式とソースは、トレンドカイ自乗テストのそれである。Cochran-Armitage trendテストは補足記事。 SNPジェノタイプデータについて、Armitage's trend testを付け加える用ができた。エクセルはこちら 検算はこちらのサイトの例で…
Java(など)は、構造を持ったデータを格納するのに便利だ。Perl(など)に書き直すときに、この構造を移転するには、perlのリファレンスを用いる。 今、Javaのクラスで int v1; int[] v2; String[] v3; なるデータを格納したクラスがあるとする。 これに対応し…
ソートにはいろいろある。 整列した多数の配列を全部つなげて非常に長い配列を作るのに、時間がかかって困る。 マージソートを使っているが・・・ こんなサイトがありました。
Allelic associationとは、あるサンプル集合について、2箇所の多型のアレルの間に相関があることを言う。一般集団においては、連鎖不平衡による相関もあり、これはDNA上の物理的距離との関係が強い。また、集団に構造がある場合には、構造の存在によりAllel…
丸めるとき、四捨五入をよくする。Javaの四捨五入については、浮動小数点問題とか、いろいろあって、BigDecimalを使うこととかは、ウェブ上でもすぐに検索できる。 今、double型で、かなり幅の大きな数値があるとする。とを丸めたいときとかがある。 こんな…
統計量Sがある。この統計量は、なる値のいずれかをとるような離散的なものとする。 たとえば、ある周辺度数を満足するような分割表には有限な場合しかなく、この周辺度数に対応するフィッシャーの正確確率Pはこのような統計量である。 Javaでこれをハンドリ…
ある分割表データがある。 その周辺度数がある。 その周辺度数からは、有限個パターンの分割表が作れる。 それらが与えるexactP値は有限個である(分割表の個数以下。異なる分割表から同一のexactP値が与えられることもあるので必ずしも一致しない)。 そのex…
Fisherの正確確率検定においては、観測された分割表の周辺度数を満足するという条件の下に、とりうるすべての分割表について、その生起確率を求める。この確率が、観測された分割表のそれ以下であるような分割表について、生起確率を足し合わせたものが、P値…
通常の度数分布(尺度がひとつ)の度数分布をさらさらと標準出力で描きたいことはよくある。さらに、多次元のdouble型データから、次元別に件数をカウントしたいこともある。"DiscreteMathTools.Tensor"はこちら。 2次元尺度の度数をプロットするには、3次元…
複数のカテゴリカル変数からなる多次元分割表を考える。k変数あり、それぞれがdk個のカテゴリを持つとき、分割表のセル数はである。このセルについて、独立仮説に基づいた期待値を求め、観測値と期待値とから算出されるカイ自乗統計量は、多次元分割表の独立…
先日、Staged approachデータをJoint analysisする件についての記事を書いた(こちら)。その中で、Staged approachでの各ステージでのサンプルサイズは、ケース・コントロールで同数であるものとして統計量を求め、その値の関係を論じた(引用文献に準拠)。そ…
nxm分割表の正確確率検定 先日、HWE検定の正確確率検定版について記載した(こちら)。ついでに、いわゆるFisherの正確確率検定のnxm分割表用のソースも載せる。 解説は、群馬大青木先生のこちらのページがよくわかる。 public static double Fishernxm2(int[]…
わけあって、J.E. Wigginton, G.R. AbecasisらによるHWE正確検定をJava化する必要が出た。このソースは、著者らにより、C/C++,R,Fortranにて公開されている。 N人、2N本染色体、アレル(A/B)、,,、,、と表すこととすると、 ,と表せる。 また、2N本のアレルの…
Partial correlation coefficientの記事はこちら ソースは、昨日の記事に追加
Multiple correlation coefficientの記事はこちら Utilesパッケージ(自分の)に以下の6ソース Calculator InOutUtils InvMat MiscUtil MultRegression TestRun DiscreteMathToolsパッケージ(自分の)以下のソースも呼び出している MatrixExec Utils.TestRunを…
前項のnucleotide polymorphismではDNA配列集団に存在する多型の分布を見たが、nucleotide diversityでは、集団を構成するDNA分子同士の異同箇所を問題にする。 全ペアにつき、異なる塩基箇所を数え、その和を、全ペア数xDNA配列長にて除す。その分散も、ソ…
ある集団で、n本の染色体の長さkの配列を観測したところ、m箇所に多型性が認められた。 今、 Principles of Population Genetics 作者: Daniel L. Hartl, Andrew G. Clark 出版社/メーカー: Sinauer Associates Inc 発売日: 1997/10 メディア: ハードカバー …
多数の仮説検定を行っている。ある棄却水準を与え、多数の仮説のどれが棄却されどれは棄却されないかを判定する方法のひとつ。 基本となる考え方はこう。 具体的に。 100個の仮説を検定しているとする。100個の仮説のそれぞれに、個別仮説検定P値を得る。独…
要素数k個の集合がある そのべき集合はの要素を持つ。 べき集合の要素であるサブセットは、i=0,...,k個の要素を持つ。i=pなるサブセットの数は通りある 一方、要素数iの集合(サブセット)を、q=2,3,...,i個の更なるサブセットの組に分けるわけ方は、http://d.…
著者のホームページ(こちら)
観測データは、系列になっていて、ある値はその系列の前の値(もしくは後の値、前後両方など)の影響を受けた値であるとする。このようなとき、個々の測定系列の増減に着目しないと違いがあるのにみつからないこととなる。たとえば、身長の経時変化など。系列…
おそらく、このシリーズでは扱わない
Missing dataとは Missing at random (MAR), Observed at random (OAR), missing completely at random (MCAR) MCARは一番簡単だが、MCARでなくても、観測データの分布の仕方と無関係にMissingしていれば、ignorableなmissing dataといえる Missin dataの対…
多変量は組み合わせ項を調べたい 観測がカテゴリカルな群に分かれている。その群間に違いがないことの検定をするにあたり、群を分ける尺度が1つであれば、one-way ANOVA、複数であれば、two-way ANOVA。こちらのサイトを参照 カテゴリ 今、観測ユニット(サ…
7.5 SNP genotypeの場合(Isotonic inference) 特徴 観測ユニットはAA Aa aaという2アレルの複合情報でできていること Aが優位かaが優位かはわからないこと(A aは相互に対等) もしくはが成り立つとみなした解析をすることが多いこと(ヘテロ接合体に突出した…
Wikipediaの記事はこちら 平均は、データ列の0を中心とした1次のモーメント 分散は、データ列の平均を中心とした2次のモーメント(2次のcentral moment) 3次のモーメントは歪度、尖度などに対応 平均を中心にしたn次モーメントは、さらに標準偏差のn乗で…
パーミュテーションテストでは、多数回パーミュテーション試行ごとの統計量・確率分布の計算を行い、その値の大小関係を解析の基本とする。特に、パーミュテーションの値空間が離散的で限定的である場合には、パーミュテーション試行ごとに統計量が同一であ…