2006-01-01から1年間の記事一覧
通常の度数分布(尺度がひとつ)の度数分布をさらさらと標準出力で描きたいことはよくある。さらに、多次元のdouble型データから、次元別に件数をカウントしたいこともある。"DiscreteMathTools.Tensor"はこちら。 2次元尺度の度数をプロットするには、3次元…
12月27日の記事で、互いに近い亜集団のSNPアレル頻度をfを用いてシミュレーションすることを書いた。 隔離された期間のあるような亜集団間では、このシミュレーションだけではうまく行かない。たとえばHapMapプロジェクトで見られるアジア2民族(日本人…
Genomic controlは構造化のある集団において得られる統計量を、その集団において観測する多数の帰無仮説OK仮説からの統計量の分布を用いて補正するという考え方で、ここ数週間のこの日記の主要テーマの1つとなっている。 さて、簡単に言うと、構造化の影響…
Texで文書を作り始めて、数式表記の苦闘から解放されたと喜んだのもつかの間、今度は、TeX形式で受け付けてくれないもろもろの相手にどうやって渡すか、という問題で苦労する。このはてなダイアリーは、ブログにおけるてふ表現の苦労からの解放であったわけ…
Genomic controlのレビューを紹介した(記事はこちら)。その中で、構造化集団の構造化の程度をfで表し、それを用いて、集団のHWEから外れたジェノタイプ頻度の計算と、構成亜集団のアレル頻度のばらつき具合についての記載があった。 平均アレル頻度pに対して…
HWEにある集団のアレル頻度pのSNPの3ジェノタイプ頻度はである。今、これからのずれをとあらわす。ここではFixation indexである。 今、このような集団の個人のもつ2アレルにつき、その関連の強さを共分散であらわす。第1のアレルがAである確率は、第2の…
たぶん、式変形はあっています。 確率pでおきる事象のN回の独立試行で、X回起きる確率は、である。今、Nが十分に大きく、pが小さすぎないとき、正規分布に近似して、と表される。今、観測データからモーメント法で算出した事象の生起確率の期待値はであるか…
上記の記事を利用して、累積確率密度分布がなる統計量(最小値が0、最大値が1)の期待値、および、それをN回ランダムに繰り返したときに得られる最小の統計量の期待値を求めてみる。 N回ランダムに繰り返したときに、以下の値が1回もない確率はである。少な…
今、最小値をmin、最大値をmaxとして持つような統計量Vがあるとする。その確率密度分布はminからmaxの範囲に定義されていて、と表されるとする。この統計量の期待値はである。 今、部分積分の公式と、とを思い出せば(リンク)、 Q(v)は累積密度関数であるから…
思い出すこと。 データをプロットする。両対数グラフを描く。増加直線になったとする。 両辺をEの累乗をとると 今、であるから
12月11日の記事で、線形近似式が出てきて、その式が、多項展開とその積分の便宜のために、ちょっと複雑になっていた。 また、累積密度関数の近似式を得る作業の途中であり、(0,0),(1,1)を通るような線形近似式を得るためのソースが必要になっている。 準備1…
ここは部分積分を用いるともっとずっと簡単でした→こちら 12月5日に、均一分布からのN回サンプリングの最小値の期待値についての記事を、12月7日にその拡張である、N回サンプリングのときの第k番目の値の期待値についての記事を書いた。 今日の記事は、不均…
12月5日の記事(こちら)に、N回の独立検定を行ったときに得られる最小P値の期待値がとなることを示した。今日の記事では、同様に行ったときに得られる、第k番目に小さいP値の期待値がとなることを示す。 均一な確率密度分布はで与えられる。 N回の独立サンプ…
均一な確率密度分布はで与えられる。 N回の独立サンプリングをしたときに以下の値が1回以上起きる確率は、FWERの考え方から示される通り、 (記事はこちら) 今、N試行中、が最小値であるということは、以下の試行が1回以上であって、以下の試行が0回である…
同一の仮説について複数のデータが得られたときに、それを総合して検定をしたいことがある。メタアナリシスは、複数の同様な発表データを総合する手法で、発表データの同定の適切性など、結果の信頼性を確保するには、それ特有の問題があるが、今、その点は…
N個の独立な検定を行って、そのP値を昇順にソートし、横軸に1からNまでの自然数を、縦軸にP値をとると、の直線に近似できる。これを組み合わせと、期待値の算出などを使って確かめてみるとすると、どういう風になるか、のメモ。 独立な検定で、帰無仮説が正…
前記事で、未満のP値を持つ検定試行が1回以上起きる確率はで表される。これは、いわゆるFamily-wise error rateと呼ばれるものである。この式の近似が意味するところがBonferroni補正である。の2次以上の項を省略したものになっている。 今、FWERがになるよ…
PCクラスタはある。たくさんの処理がある。複数の処理の間で特にデータのやりとりは必要ない。とにかく、ばらばらとたくさん処理したい。クラスタの設定が甘くて、うまく動かせない。 シェルコマンドとパールなどで細かいところは書いて、クラスタ分配のあた…
個人的な研究テーマに近い話しで少しだけ文献メモ。 the correlation in the haplotypic structure between two subsets of SNPs 複数のSNPを持つ領域につき、SNPを2群に分け、群別のハプロタイプ頻度から算出する 文献はこちら エントロピーの定義式を用い…
3.0 線形計画問題(Linear Programming;LP) においての制約のもとでを最大化せよ、という問題である 意味を書き下すと、m個の1次線形不等式を制約条件とし、その制約条件を満たす、n個の値のセット(ベクトル)の中で、によって定められるスカラー量を最大にす…
独立でない複数のマーカーについてmultiple testingをすることを考える。大きく2つのマーカー間非独立性がある(連鎖不平衡解析の場合)。ひとつは連鎖不平衡。もうひとつは集団の構造化。眼でみると、掲載図(オリジナルはこちら)。 掲載図では、マーカーがラ…
同サンプルサイズの2次元行列型の複数のデータ(マイクロアレイデータ)を正準相関係数を使ってつないで、相互の関係についての統計量を引き出していた。 正準相関分析についてはこちらを参照。
統計力学 statistical mechanics アンサンブル(確率集団) ensemble ミクロカノニカルアンサンブル microcanonical ensemble カノニカルアンサンブル canonical ensemble グランドカノニカルアンサンブル grand canonical ensemble
SNPはDiallelic であることを特徴とし、数は多くなるが、そのデータ次元構造が単純である。そのあたりを利用していじるときに、統計力学のもろもろを援用している発表もあった。 それに関してすこしでも概要をつかもうとすると、まず、次のような、(はるか・…
エピスタシスの解析は、相互に遠位のローカス同士のジェノタイプ組合せをケース・コントロール別に比較したとき、が、個別ローカスに認められるケース・コントロール間のジェノタイプ分布差から説明しにくいことから統計的な有意差を求めるもの(が多い)。MDR…
内容をかいつまんでも了解していないけれど、こちらのサイトの下段の記載によると、組合せ最適化のための手法で、因子とそれをつなぐ演算子とを求めるための方法らしい。最適化にあたりラッパープログラムを通じて任意のアルゴリズムにつなぐなどしている。…
系統樹によるプーリング ハプロタイプベースの関連検定を行うとき、ハプロタイプ数が増えてくると厄介なので、なんらかの基準でプールしたい。いくつか方法がある。これらでプーリング問題がすべて解決するわけではないけれど、小セグメントの ALTree TreeSc…
11月16日、17日の2日間、フロリダ州タンパにて開催。学会サイトはこちら。日本人がいない・・・。その覚書。
同じく、『形と動きの数理』から。Wikiのボロノイ図は「円ボロノイ図」ではなく、一般のそれだが、解析における意味合いとしては、円ボロノイの原理を使って、円による平面充填問題の探索スペースの次元減少を行っている。前項のふっくら三角形も次元減少に関…
『形と動きの数理〜工学の道具としての幾何学』 東京大学出版会 形と動きの数理―工学の道具としての幾何学 作者: 杉原厚吉 出版社/メーカー: 東京大学出版会 発売日: 2006/09 メディア: 単行本 リラックスして読む本として10月30日の記事に引いた本だが、そ…