ハプロタイプ

ランダム家系データ作成

ポアソン・ディリクレ過程とハプロタイプ頻度

サンプリングして有限個数の多項分布を生み出すことに関するものと、長さ1を分割する・無限分割することに関するものに大きく2分され、その2つが相互に関連する、という構図になっている 中華料理店過程とその一般化としてのピットマン・ヨー過程 多項標…

圧縮したまま演算する

こちらでZDD/BDDについて書いた その元ネタとしてこちらがある その中に頻出アイテム集合マイニングという話題がある スーパーで、スーパーの全商品リストを全体集合とし、顧客の1回毎の買い物リストを、部分集合としたときのデータハンドリングの話 まず、…

座標で表す

ハプロイド・ディプロイド あるマーカーのアレル数がkのとき、アレル頻度に関する情報はk個の値で(も)与えられる。ただし、総和が1という制約があるので、自由度はk-1 この自由度k-1の情報を幾何的にどう配置するか、はいくつかやり方がある 例えば、アレル…

すべてのハプロタイプは世界に1本だけ配列のとき

SNPのハプロタイプは0,1 Nh<-10 # 染色体本数 Nm<-20 # SNP数 # 適当にハプロタイプを作る H<-matrix(sample(c(0,1),Nh*Nm,replace=TRUE),Nh,Nm) 染色体が2本合わさってディプロタイプを作る 染色体のプールからランダムにペアを作るとそれはHWE仮定 Shuffl…

メモ

個々のSNPのアレル頻度は、0-1に均一にした上で、ハプロタイプ頻度をそれなりに出したい N<-1000 k<-10 c<-1 xxxx<-rdirichlet(N,rep(1,2^k)*1/(2^(k-c))) yyyy<-xxxx[,1:2^(k-c)] zzzz<-apply(yyyy,1,sum) hist(zzzz)

ハプロタイプ間の距離のこと、ハプロタイプがある状態から離れる過程のこと

アレル共有距離(Allele sharing distance)というのがある。これは、すべてのハプロタイプの差異が変異によるとみなしたときに適当な距離の定義である。種間距離を測るときなどは、これが適当である。全座位が異なるハプロタイプ同士の距離が最大となる。 組…

シミュレーション

k個のSNPがあったとする SNPiのアレル頻度を、とする とする k個のSNPの順序をにて決めることとする このとき、次のようなハプロタイプ頻度セットは、全SNPのアレル頻度の条件を満足する k個のSNPが作りうる、種類のハプロタイプをk+1群に分ける SNPのメジャ…

一般化連鎖不平衡係数(覚え書き追加)

以前、こんな記事を書いた。 A novel method to express SNP-based genetic heterogeneity,Ψ, and its use to measure linkage disequilibrium for multiple SNPs, Dg, and to estimate absolute maximum of haplotype frequency用あって、これの、日本語の…

ハプロタイプ格子

2SNPが作る4ハプロタイプについて、2群間で検定することを考える。2x4分割表ができて、自由度3である。今、4ハプロタイプをH1,H2,H3,H4とし、ケースのH1,H2,H3の観測本数をx,y,zと自由度3に相当する3変数とすると、2x4分割表の周辺度数に基づく…

データのシミュレーション作成

SNP数の多いハプロタイプのデータを作りたい。 かなりハプロタイプの種類を少なくする→LD強い HWEを仮定する。 手っ取り早く、それなりのデータを作るためのソース。 SNP数は1万程度までOK。ハプロタイプ数は指定する。 人数は、それなりに。 ただし、SNP数…

連鎖不平衡の強さに応じた2SNPハプロタイプ頻度の特定

データシミュレーションなどをするときには、LDの強さに応じてハプロタイプ頻度を与える必要がある。 一番、頻用するのは、2SNP間のLDの強さに応じて4ハプロタイプ頻度を与えるような場合である。 LDインデックスの1つであるは、2SNPのアレル頻度が与え…

Multiallelic D’

関連記事はこちらとこちら 出典はこちら D’は、2つのSNPが作る4ハプロタイプの頻度のばらつき具合を表す数字で、 1がばらばら、0が均質、です(h1*h4-h2*h3)が0なら、ゼロ、これが大きい方 の極端なら1、です。 multiallelic D'も基本的には、0が…

SNPのハプロタイプ頻度の式表現

ただし、はを包含するSNP数kであるような部分ハプロタイプ 追記(2006.04.22) この漸化式が任意のxについて、ハプロタイプ頻度の総和として1を返すことの確認は、プログラム化することで確認した。

不確定ジェノタイプ

SNPが作るジェノタイプは、2つ以上のSNPでヘテロのときに、そのハプロタイプ型を確定できない。このような「ハプロタイプ非確定型」ジェノタイプの数はどのくらいあるか。 SNP数 ハプロタイプ非確定型ジェノタイプ数

最尤推定

先日、EMアルゴリズムによるハプロタイプ頻度推定が、その初期値設定に依存して、異なる解に収束することを例示した。(記事はこちら) その様子をプロットで示すとこのようになる。 エクセルはブルーのセルに2SNP、9ジェノタイプの人数を入れる。ハプロタイ…

メモ

ハプロタイプ、というか、アレル、というかの空間の広さについて 今、i 種類のアレルによって、占められている染色体空間がある。第j番アレルの頻度をと表せば、である。今、このような空間がどのくらい広いかを考える。i 種類のアレルのそれぞれについて、…

EMの初期値と収束

EMアルゴリズムは、その簡単なアルゴリズムにも関わらず、最大尤度を与える推定値への収束が知られている。 しかしながら、離散分布においては、特に周辺分布(ハプロタイプ頻度ならば、ゼロに近い 頻度)において、収束速度の低下や、極大尤度への収束が起き…

最尤推定値を用いた分割表検定とオッズ比の信頼区間

As the cell counts of the contingency table are based on haplotype frequency estimates, rather than counts, the test statistic will not necessarily follow a chi-square distribution, because of the increased variance of the estimates. Genet…

ハプロタイプによるケースコントロール関連解析の手法

ある領域に複数のハプロタイプが存在する。その中から疾患リスクアレルを検出する方法にはいくつかある。Tzeng, JY et al.による最近の論文がイントロダクションで紹介している系譜についてコメントする 個々のハプロタイプについて解析する方法 分割表検定…

進化学ベースでのハプロタイプ系統樹

連鎖不平衡解析などにおいて、組換えを考慮に入れるべき状況にあっては、距離行列が不適切であることに留意。 現在、論文でもっともよく目にするタイプのハプロタイプ同士の親子関係(祖先・子孫関係)の図は、次のような方法である。Arlequin 2.000 のマニュ…

WF_ARGアプリケーション解説

アプリケーション公開先はこちら 目次 概要 入手手順 実行手順 出力概要 追記(11/16/2005)

Matthew Stephens - PHASE software for haplotype estimation-Phase unknownのdiploidデータからハプロタイプを推定する方法についての概説

主な参考文献 Haplotype inferenceのレビュー Algorithms for inferring haplotypes Tianhua Niu Genetic Epidemiology Volume 27, Issue 4 , Pages 334 - 347 Wiley InterScience :: Session Cookies その他の参考文献 MCMC(Markov Chain-Monte Carlo)no ti…

Haploviewを用いた連鎖不平衡マッピング解析実習

こちらへ移動