2007-01-01から1ヶ月間の記事一覧
ソートで頑張っても、のオーダーであることは自明。少々の重い計算でも、ソートするくらいなら、逐一計算したほうがまし。ソートをせざるを得ないデータの出し方をせずに、工夫するのが、結局速い、か・・・。
Javaで紹介されていたソースをなぞる形でパールで書いてみた。まったく同じものを作るのもつまらないので、複数列のデータを、特定の列の値でソートすることとした。 また、double型データでの版も作ってみた(あくまでもオリジナルのサイトが本物で、それのi…
ソートにはいろいろある。 整列した多数の配列を全部つなげて非常に長い配列を作るのに、時間がかかって困る。 マージソートを使っているが・・・ こんなサイトがありました。
何をどうするかがわかっている(わかりきっている)ときに、その処理を計算機に代行させる、そのためのプログラムを書く、そんなときは、きれいな入出力管理ができる。 日常は、そんなわけにいかず、試行錯誤の結果、行うべき処理が決まる。ようやく処理方針が…
たくさんの分割表がある。そのセルの数値がすべて同一な表は、その表に対して何の計算をするにしろ検定結果が同じである(もちろん)。 周辺度数が同じだが、各セルの値がことなる場合もある。このような場合は、その分割表・周辺度数が網羅しうる分割表パター…
Allelic associationとは、あるサンプル集合について、2箇所の多型のアレルの間に相関があることを言う。一般集団においては、連鎖不平衡による相関もあり、これはDNA上の物理的距離との関係が強い。また、集団に構造がある場合には、構造の存在によりAllel…
丸めるとき、四捨五入をよくする。Javaの四捨五入については、浮動小数点問題とか、いろいろあって、BigDecimalを使うこととかは、ウェブ上でもすぐに検索できる。 今、double型で、かなり幅の大きな数値があるとする。とを丸めたいときとかがある。 こんな…
統計量Sがある。この統計量は、なる値のいずれかをとるような離散的なものとする。 たとえば、ある周辺度数を満足するような分割表には有限な場合しかなく、この周辺度数に対応するフィッシャーの正確確率Pはこのような統計量である。 Javaでこれをハンドリ…
ある分割表データがある。 その周辺度数がある。 その周辺度数からは、有限個パターンの分割表が作れる。 それらが与えるexactP値は有限個である(分割表の個数以下。異なる分割表から同一のexactP値が与えられることもあるので必ずしも一致しない)。 そのex…
まだ、メモ書きするための最低限の順序立てすらできていないけれど、何ものからも束縛されない、真の自由とは、この世のものではないらしい。それが分散の不偏性とかに通じているのだろう。
データシミュレーションなどをするときには、LDの強さに応じてハプロタイプ頻度を与える必要がある。 一番、頻用するのは、2SNP間のLDの強さに応じて4ハプロタイプ頻度を与えるような場合である。 LDインデックスの1つであるは、2SNPのアレル頻度が与え…
なる累積確率密度分布のときの、N独立試行の最小P値の期待値は のとき のとき この2式は、統計量の最大値が、のときは1で、のときはであることに注意して、この記事に沿った式展開をして得られる式に一致する。また、地道に式変形(後述)しても同様に得られ…
Fisherの正確確率検定においては、観測された分割表の周辺度数を満足するという条件の下に、とりうるすべての分割表について、その生起確率を求める。この確率が、観測された分割表のそれ以下であるような分割表について、生起確率を足し合わせたものが、P値…