2006-10-01から1ヶ月間の記事一覧

Connectivity map

"Connectivity map" Lamb, J. et al. The connectivity map: using gene-expression signatures to connect small molecules, genes, and disease. Science 313, 1929–1935 (2006) 164 小分子(薬など)が及ぼすCell linesの発現プロファイルカタログ。 薬‐遺…

学而不思則罔、思而不学則殆

数式表現を扱っていると、いつのまにか、何のためにそうしたかったのかがわかりにくくなる。個別の目的は忘れないまでも、それ以外の対象への応用には眼が向かなくなる。そんな気分のときに、リラックスして読む本。 『形と動きの数理〜工学の道具としての幾…

ベータ分布とディリクレ分布

ベータ分布とディリクレ分布が、それぞれ2項分布、多項分布の共役事前分布であることを昨日の記事に書いた(こちら) はてな記事で参考になるのはこちら ベータ分布はディリクレ分布のうち、項数が2の場合である。これをRのベータ分布乱数発生関数 rbeta と…

助走(駆け足で読むために) Bayesisn Graphical Models for Discret

伴走資料はこちら イントロダクション 離散的データ 観測現象は、カテゴリカルに記録される。たとえば現象を観測すると、複数のカテゴリがあって、そのいずれかである。 ベイズ を観測したらだった。そのあとに影響されるを観測したらだった。そのあとに影響…

Markov blanket

サイクルを持たない有向グラフを考える。向きを持つ辺の出る側の点を親、入る側の点を子と呼ぶことにする。このようなグラフにはモラルグラフなるものが定められる。 モラルグラフでは、同一の点の親同士の間に辺を与え、すべての辺の向きを取り除いたもので…

Bayesian Graphical Models for Genomewide Association studies

論文はAJHG 79 100-112, 2006 (こちら) Bayesian Graphical Modelがわかっていないと、Methodsの途中から式が不明になるので、とりあえず、モデル自体の調べ物を・・・ サイト(英語) 文献 書籍 Graphical Models: Methods for Data Analysis and Mining 作者…

7 その他

Pairwise LD Quantitative traitの場合にGxEなど

6 Epistasis

caes controlの対比で調べるか、caseでのみ調べるかのいずれか All pairwise combinations of SNPs 100K markers x 500 samples dataset についての4.5 billion combinationsで24時間強 手法はOdds Z score for test of odds ratioを漸近近似でP化している、…

5 マーカーセット解析

plink...は大規模フェージングを志向しておらず、標準的なEMアルゴリズムでのハプロタイプ推定を行っているので、ハプロタイプを組めるSNP数は少ない ハプロタイプ数hのローカスについて、h-1自由度の分割表(2xh)検定x1と、自由度1の2x2分割表検…

4 パーミュテーションテスト補正

Label-shufflingとgene-dropping 弧発例ケースコントロールでは、『ケース』『コントロール』のラベルの付け替えをするLabel-shufflingにより、形質と遺伝マーカーとの間の関係に帰無仮説を仮定する。家系データの場合には、伝達・非伝達との間に帰無仮説を…

3 個別マーカー関連検定(パーミュテーションテストを除く補正を含む)

Basic アレル頻度比較、カイ自乗検定、OR ORの信頼区間は指定可能 性染色体情報はMapファイルで指定してあれば、自動調整 Full model カイ自乗検定 2x3ジェノタイプ分割表検定 2x3 test (df=2) Cochran-Armitage trend test (df=1) 2x2ジェノタイプ分割表検…

2 Stratification評価

IBS clustering ジェノタイプのIdentity-by-stateにより検体間距離を算出し、クラスタリングする 使用 パーミュテーションテストを行うときにラベルシャッフルを行う範囲はクラスター内とする 層別化検定を行うときにはクラスターごとに行う いくつかのオプ…

1 データ全体の集計と評価、それに基づく、解析対象データの絞込み

不明コール 不明コールがランダムに入っていれば、独立性検定上は受け入れられるが、偏りは受け入れにくい 不明コール上の外れ値を持つ検体・SNPを排除するのは1つの方法 不明コールの多い検体 不明コールの多いSNP 排除するわけに行かない(行きにくい)不明…

plink... Whole Genome Association toolset

Population geneticsに関する諸ツールのデパートがArlequin(サイトはこちら、記事はこちら)とするなら、plink...(サイトはこちら、記事はここ)は(ホールゲノム)アソシエーション解析の諸ツールのデパート。 概要 実行内容は多彩であり、一筋で説明しにくいと…

メモ

参考ページはこちら、そのインデックスページはこちら

Label-swapping と Gene-dropping

弧発例を集めたケースコントロール関連解析の場合のパーミュテーションテストにおいては、ケース・コントロールのラベルを付け替える(Label-swappin)ことによって、新たなデータセットを作り、統計量を計算することができる。他方、家系データの場合には、ア…

Generalized Extreme Value Distribution

もっとも単純に言うと、Multiple testing 問題では、複数の仮説検定を行ったときに、得られる個別仮説の統計量のうち、最大な量の分布をパーミュテーション試行に渡って記録し、その各パーミュテーション試行中の最大統計量のとる分布が問題となる。これは、…

補足:モデルで用いる分布など、ベータ分布

記事、『モデルで用いる分布など』の続き。元記事はこちら。 ベータ分布の確率密度関数 今、n個の独立した仮説検定をしたときに、最小のPはで与えられるが、これは、ベータ分布の確率密度関数について、を代入したものと関係がある ベータ分布の期待値、分散…

Copy Number Variations, CNV

3レビュー Copy number variation: New insights in genome diversity Genome Research 16:949-961, 2006 こちら と Structural variants: changing the landscape of chromosomes and design of disease studies Human Molecular Genetics Volume 15, Revi…

カイ自乗統計量

複数のカテゴリカル変数からなる多次元分割表を考える。k変数あり、それぞれがdk個のカテゴリを持つとき、分割表のセル数はである。このセルについて、独立仮説に基づいた期待値を求め、観測値と期待値とから算出されるカイ自乗統計量は、多次元分割表の独立…

組合せ

2x2分割表には、縦軸と横軸にそれぞれ周辺度数があって、その数は、2x2=4。さらに、全セルの総和がある。この2x2の分割表は、平面に書き表せていることからわかるように、2次元の分割表である。周辺度数のことを考えるとき、2つの次元のうち、2つともをこ…

標準化した分割表

先日、Staged approachデータをJoint analysisする件についての記事を書いた(こちら)。その中で、Staged approachでの各ステージでのサンプルサイズは、ケース・コントロールで同数であるものとして統計量を求め、その値の関係を論じた(引用文献に準拠)。そ…

メモ

大規模データ・複雑データを一括してシンプルに扱うことを念頭に置いたメモ。 パーミュテーションテストについては、こちら、FDRについては、こちら、のそれぞれ、前掲記事と関連している。 SNP data の処理 0 データ構成 マーカー数 M サンプル数 N(ケース…

Fisherの正確確率検定

nxm分割表の正確確率検定 先日、HWE検定の正確確率検定版について記載した(こちら)。ついでに、いわゆるFisherの正確確率検定のnxm分割表用のソースも載せる。 解説は、群馬大青木先生のこちらのページがよくわかる。 public static double Fishernxm2(int[]…