2006-01-01から1年間の記事一覧

多次元度数分布

通常の度数分布(尺度がひとつ)の度数分布をさらさらと標準出力で描きたいことはよくある。さらに、多次元のdouble型データから、次元別に件数をカウントしたいこともある。"DiscreteMathTools.Tensor"はこちら。 2次元尺度の度数をプロットするには、3次元…

シミュレーション

12月27日の記事で、互いに近い亜集団のSNPアレル頻度をfを用いてシミュレーションすることを書いた。 隔離された期間のあるような亜集団間では、このシミュレーションだけではうまく行かない。たとえばHapMapプロジェクトで見られるアジア2民族(日本人…

SNPにおけるgenomic control補正でのカイ自乗分布の対数対数プロット

Genomic controlは構造化のある集団において得られる統計量を、その集団において観測する多数の帰無仮説OK仮説からの統計量の分布を用いて補正するという考え方で、ここ数週間のこの日記の主要テーマの1つとなっている。 さて、簡単に言うと、構造化の影響…

てふでの苦労

Texで文書を作り始めて、数式表記の苦闘から解放されたと喜んだのもつかの間、今度は、TeX形式で受け付けてくれないもろもろの相手にどうやって渡すか、という問題で苦労する。このはてなダイアリーは、ブログにおけるてふ表現の苦労からの解放であったわけ…

構造化集団のシミュレーション

Genomic controlのレビューを紹介した(記事はこちら)。その中で、構造化集団の構造化の程度をfで表し、それを用いて、集団のHWEから外れたジェノタイプ頻度の計算と、構成亜集団のアレル頻度のばらつき具合についての記載があった。 平均アレル頻度pに対して…

構造化集団における個人の2アレルの共分散とFixaton index

HWEにある集団のアレル頻度pのSNPの3ジェノタイプ頻度はである。今、これからのずれをとあらわす。ここではFixation indexである。 今、このような集団の個人のもつ2アレルにつき、その関連の強さを共分散であらわす。第1のアレルがAである確率は、第2の…

2項分布の正規分布近似と尤度比検定

たぶん、式変形はあっています。 確率pでおきる事象のN回の独立試行で、X回起きる確率は、である。今、Nが十分に大きく、pが小さすぎないとき、正規分布に近似して、と表される。今、観測データからモーメント法で算出した事象の生起確率の期待値はであるか…

不均一確率密度分布からのN回サンプリングの最小値について(改変版)

上記の記事を利用して、累積確率密度分布がなる統計量(最小値が0、最大値が1)の期待値、および、それをN回ランダムに繰り返したときに得られる最小の統計量の期待値を求めてみる。 N回ランダムに繰り返したときに、以下の値が1回もない確率はである。少な…

累積確率密度関数から統計量の期待値

今、最小値をmin、最大値をmaxとして持つような統計量Vがあるとする。その確率密度分布はminからmaxの範囲に定義されていて、と表されるとする。この統計量の期待値はである。 今、部分積分の公式と、とを思い出せば(リンク)、 Q(v)は累積密度関数であるから…

両対数グラフの直線と累乗

思い出すこと。 データをプロットする。両対数グラフを描く。増加直線になったとする。 両辺をEの累乗をとると 今、であるから

累積確率密度分布関数の近似

12月11日の記事で、線形近似式が出てきて、その式が、多項展開とその積分の便宜のために、ちょっと複雑になっていた。 また、累積密度関数の近似式を得る作業の途中であり、(0,0),(1,1)を通るような線形近似式を得るためのソースが必要になっている。 準備1…

不均一な集団からのデータ解釈への拡張

ここは部分積分を用いるともっとずっと簡単でした→こちら 12月5日に、均一分布からのN回サンプリングの最小値の期待値についての記事を、12月7日にその拡張である、N回サンプリングのときの第k番目の値の期待値についての記事を書いた。 今日の記事は、不均…

P値を昇順ソートしたときのその期待値について

12月5日の記事(こちら)に、N回の独立検定を行ったときに得られる最小P値の期待値がとなることを示した。今日の記事では、同様に行ったときに得られる、第k番目に小さいP値の期待値がとなることを示す。 均一な確率密度分布はで与えられる。 N回の独立サンプ…

最小P値の分布

均一な確率密度分布はで与えられる。 N回の独立サンプリングをしたときに以下の値が1回以上起きる確率は、FWERの考え方から示される通り、 (記事はこちら) 今、N試行中、が最小値であるということは、以下の試行が1回以上であって、以下の試行が0回である…

複数の分割表検定を併せる

同一の仮説について複数のデータが得られたときに、それを総合して検定をしたいことがある。メタアナリシスは、複数の同様な発表データを総合する手法で、発表データの同定の適切性など、結果の信頼性を確保するには、それ特有の問題があるが、今、その点は…

複数の独立な検定のP値のプロットが直線になることについてのメモ

N個の独立な検定を行って、そのP値を昇順にソートし、横軸に1からNまでの自然数を、縦軸にP値をとると、の直線に近似できる。これを組み合わせと、期待値の算出などを使って確かめてみるとすると、どういう風になるか、のメモ。 独立な検定で、帰無仮説が正…

Family-wise error rate

前記事で、未満のP値を持つ検定試行が1回以上起きる確率はで表される。これは、いわゆるFamily-wise error rateと呼ばれるものである。この式の近似が意味するところがBonferroni補正である。の2次以上の項を省略したものになっている。 今、FWERがになるよ…

付け焼刃のCで分配

PCクラスタはある。たくさんの処理がある。複数の処理の間で特にデータのやりとりは必要ない。とにかく、ばらばらとたくさん処理したい。クラスタの設定が甘くて、うまく動かせない。 シェルコマンドとパールなどで細かいところは書いて、クラスタ分配のあた…

Multilocus LDインデックス

個人的な研究テーマに近い話しで少しだけ文献メモ。 the correlation in the haplotypic structure between two subsets of SNPs 複数のSNPを持つ領域につき、SNPを2群に分け、群別のハプロタイプ頻度から算出する 文献はこちら エントロピーの定義式を用い…

線形計画法の用語 3 線形計画法 駆け足で読む B.コルテ/J.フィーゲンの 組合せと最適化-理論とアルゴリズム

3.0 線形計画問題(Linear Programming;LP) においての制約のもとでを最大化せよ、という問題である 意味を書き下すと、m個の1次線形不等式を制約条件とし、その制約条件を満たす、n個の値のセット(ベクトル)の中で、によって定められるスカラー量を最大にす…

マーカーの非独立性を眼で見る

独立でない複数のマーカーについてmultiple testingをすることを考える。大きく2つのマーカー間非独立性がある(連鎖不平衡解析の場合)。ひとつは連鎖不平衡。もうひとつは集団の構造化。眼でみると、掲載図(オリジナルはこちら)。 掲載図では、マーカーがラ…

正準相関係数

同サンプルサイズの2次元行列型の複数のデータ(マイクロアレイデータ)を正準相関係数を使ってつないで、相互の関係についての統計量を引き出していた。 正準相関分析についてはこちらを参照。

多次元データ空間の統計力学的取り扱い International Genetic Epidemiology Society年会(IGES2006)

統計力学 statistical mechanics アンサンブル(確率集団) ensemble ミクロカノニカルアンサンブル microcanonical ensemble カノニカルアンサンブル canonical ensemble グランドカノニカルアンサンブル grand canonical ensemble

統計力学関係 International Genetic Epidemiology Society年会(IGES2006)

SNPはDiallelic であることを特徴とし、数は多くなるが、そのデータ次元構造が単純である。そのあたりを利用していじるときに、統計力学のもろもろを援用している発表もあった。 それに関してすこしでも概要をつかもうとすると、まず、次のような、(はるか・…

集団構造化とエピスタシスIGES2006)

エピスタシスの解析は、相互に遠位のローカス同士のジェノタイプ組合せをケース・コントロール別に比較したとき、が、個別ローカスに認められるケース・コントロール間のジェノタイプ分布差から説明しにくいことから統計的な有意差を求めるもの(が多い)。MDR…

Symbolic discriminant analysis (SDA) (IGES2006)

内容をかいつまんでも了解していないけれど、こちらのサイトの下段の記載によると、組合せ最適化のための手法で、因子とそれをつなぐ演算子とを求めるための方法らしい。最適化にあたりラッパープログラムを通じて任意のアルゴリズムにつなぐなどしている。…

ハプロタイプ関連解析(IGES2006)

系統樹によるプーリング ハプロタイプベースの関連検定を行うとき、ハプロタイプ数が増えてくると厄介なので、なんらかの基準でプールしたい。いくつか方法がある。これらでプーリング問題がすべて解決するわけではないけれど、小セグメントの ALTree TreeSc…

International Genetic Epidemiology Society年会(IGES2006)

11月16日、17日の2日間、フロリダ州タンパにて開催。学会サイトはこちら。日本人がいない・・・。その覚書。

円ボロノイ図

同じく、『形と動きの数理』から。Wikiのボロノイ図は「円ボロノイ図」ではなく、一般のそれだが、解析における意味合いとしては、円ボロノイの原理を使って、円による平面充填問題の探索スペースの次元減少を行っている。前項のふっくら三角形も次元減少に関…

ふっくらした三角形

『形と動きの数理〜工学の道具としての幾何学』 東京大学出版会 形と動きの数理―工学の道具としての幾何学 作者: 杉原厚吉 出版社/メーカー: 東京大学出版会 発売日: 2006/09 メディア: 単行本 リラックスして読む本として10月30日の記事に引いた本だが、そ…