構造化
Am J Hum Genet 80 921-930 (2007) A Simple and Improved Correction for Population Stratification in Case-Cotrol Studies. by MP Epxtein et al. Genomic Control, 主成分分析(Eigenstrat)でも補正できない構造化の補正 「構造化情報の強いマーカー」に…
12月27日の記事で、互いに近い亜集団のSNPアレル頻度をfを用いてシミュレーションすることを書いた。 隔離された期間のあるような亜集団間では、このシミュレーションだけではうまく行かない。たとえばHapMapプロジェクトで見られるアジア2民族(日本人…
Genomic controlは構造化のある集団において得られる統計量を、その集団において観測する多数の帰無仮説OK仮説からの統計量の分布を用いて補正するという考え方で、ここ数週間のこの日記の主要テーマの1つとなっている。 さて、簡単に言うと、構造化の影響…
Genomic controlのレビューを紹介した(記事はこちら)。その中で、構造化集団の構造化の程度をfで表し、それを用いて、集団のHWEから外れたジェノタイプ頻度の計算と、構成亜集団のアレル頻度のばらつき具合についての記載があった。 平均アレル頻度pに対して…
HWEにある集団のアレル頻度pのSNPの3ジェノタイプ頻度はである。今、これからのずれをとあらわす。ここではFixation indexである。 今、このような集団の個人のもつ2アレルにつき、その関連の強さを共分散であらわす。第1のアレルがAである確率は、第2の…
12月11日の記事で、線形近似式が出てきて、その式が、多項展開とその積分の便宜のために、ちょっと複雑になっていた。 また、累積密度関数の近似式を得る作業の途中であり、(0,0),(1,1)を通るような線形近似式を得るためのソースが必要になっている。 準備1…
ここは部分積分を用いるともっとずっと簡単でした→こちら 12月5日に、均一分布からのN回サンプリングの最小値の期待値についての記事を、12月7日にその拡張である、N回サンプリングのときの第k番目の値の期待値についての記事を書いた。 今日の記事は、不均…
独立でない複数のマーカーについてmultiple testingをすることを考える。大きく2つのマーカー間非独立性がある(連鎖不平衡解析の場合)。ひとつは連鎖不平衡。もうひとつは集団の構造化。眼でみると、掲載図(オリジナルはこちら)。 掲載図では、マーカーがラ…
ケース・コントロール標本が、M個の均質亜集団から、非均等にサンプリングされたとする。 それぞれの亜集団のコントロール集団におけるリスクアレルの頻度をとする。 それぞれの亜集団のケース集団におけるリスクアレル頻度をとする。リスクアレルが第i番目…
Structured Association 複数の互いに位置的に関連のない遺伝マーカーにおける観測データを用いて、個人を複数の亜集団に分類する。それぞれの亜集団は階層化がないものとする。亜集団にわけた上で解析をすることで、個々のマーカー・ローカスにおける統計量…
集団から抽出して行うケース・コントロール関連解析は、そのサンプル収集の容易さからCommon diseases関連遺伝子解析の主流となっている。大規模な連鎖不平衡関連解析では、解析遺伝子・ローカスの数が多いことからくる第1種過誤のインフレーションが問題と…
集団は、均一集団の寄せ集めになっている(ことが多い)。そのよせ集まり具合の評価。最近、論文でよく使われている"Structure"はこちら。Structureでは、観測データから個人をグループ分けして、グループ間の遠近関係を出す。こちらの手法は、観測データとと…