2011-05-01から1ヶ月間の記事一覧

遺伝子多型解析を数か月でできるようになるために〜第1回

『Applied Statistical Genetics With R』の読み会シリーズの目次 2011/05/13 テキスト Applied Statistical Genetics with R: For Population-based Association Studies (Use R!)作者: Andrea S. Foulkes出版社/メーカー: Springer New York発売日: 2009/0…

遺伝子多型解析を数か月でできるようになるために

この読み会について(こちらの「遺伝因子マッピング」勉強会) こちらがまとめ・問題解答です 目次 第1回 R Basics 第2回 第1章 第3回 第2章, 1 & 2 第4回 第2章,残り、第3章 第5回 第4章 マルチプルテスティング

数学ランドへようこそ、をぱらぱらめくる 続き

驚くことが多い。 「なお余談だが、『本質は何か』といったことを考える能力は企業に就職する数学科の卒業生に企業から期待されていることである」、とある。・・・本当だとよいけれど。 「微分方程式の初歩については、高校でも教えられていた時期もあった…

数学ランドへようこそ、をぱらぱらめくる

数学セミナー2011/5は、「大学数学が一望できる数学ランドへようこそ(その1)」特集 確率論・統計数学と、情報科学・離散数学とが「ランド」の対角線の相互に反対側に置かれているな、と、まず思う 冒頭の「線形代数」で「ガロア理論」が言葉として登場する …

ウィルコクソンの符号順位検定

n 個の対象に対し各2回の観察をする nペアの量的データが得られる 変化量に興味がある 増えた対象もあれば、減った対象もある 増えがちなのか、減りがちなのか、そうとも言えないのか、が判定したい 要点 「まさにそうとも言えない」データはどういう場合な…

ウィルコクソンの符号順位検定

検定してみる

コドンの3番目の塩基はアミノ酸決定に関して情報量が少ないという こちらで、第1塩基と第2塩基の「えらさ」を議論している その「えらさ」を、数字にするとして、大雑把に、どうすることができるだろうか 第1,2,3の塩基ごとに、アミノ酸のどれに対応…

工夫

今年度も(多分)ある、中学生向けの企画こんな企画 昨年度はこんな感じ 今年度はこんな感じの予定 提供側の課題は「わかりやすさ」 そのためのネタのメモ 事前確率を共有した上で、出現配列の珍しさの「体感値」を「長さや比率」で口にしてみる。他人のそれ…

実行コマンド

SMMFout<-SearchMissingsMultiFamily(pedigrees=pedigrees,genotypesFamily=genotypesFamily,Gpool=Gpool2,candidatesList=candidatesList,FamilyNames=FamilyNames,IndNames=IndNames,Alleles=Alleles,Probs=Probs) for(ip in 1:length(pedigrees)){ print(…

デモデータ

pedigrees<-list() # 同胞 pedigrees[[1]]<-matrix( c(1,2,3,4, 0,0,1,1, 0,0,2,2, 1,0,0,1, 3,3,1,2), ncol=5) # Trio pedigrees[[2]]<-matrix( c(1,2,3, 0,0,1, 0,0,2, 1,0,0, 1,3,2), ncol=5) pedigrees[[3]]<-matrix( c(1:8, 0,0,1,0,3,3,3,3, 0,0,2,0,4…

ソース

# 依存パッケージ library(kinship) library(MCMCpack) library(gtools) library(sets) library(paramlink) # 家系情報からkinshipパッケージのpedigreeオブジェクトを作る # p # 第1カラム:ID # 第2カラム:母 # 第3カラム:父 # 第4カラム:性別 0:…

鑑定しよう

昨日の記事のファイル置き場 関数セットのファイル デモデータ 実行ファイル 解説PPT

マルチ家族の情報を受け入れて処理・家族ごとに処理

# pedigreeごとに # 家系情報 # 生存・協力者のジェノタイプ情報 # 被捜索者ごとに、身元不明者リスト中の候補者がリストアップされている SearchMissingsMultiFamily<-function(pedigrees,genotypesFamily,Gpool,candidatesList,FamilyNames,IndNames,Allel…

デモデータの作成

家系を与える 家系が満足するジェノタイプデータを作る 一部の家系メンバーのジェノタイプデータが欠けたデータを作る HWEを満足する集団のジェノタイプデータを作る 候補者のジェノタイプデータを家系メンバーのうちのジェノタイプが欠けたメンバーのジェノ…

鑑定を動かしてみる

昨日の記事の実践編 デモデータの作成 マルチ家族の情報を受け入れて処理・家族ごとに処理

ディプロタイプの事前確率を考慮する

核家族ごとに、取りうるディプロタイプの組み合わせごとに確率を計算することを前記事で書いた ディプロタイプがわかっている人の場合は、ただ1つのディプロタイプが確率1で決まっている ディプロタイプが与えられていないメンバーの場合、親が不明な場合…

核家族ごと・ディプロタイプを固定して、確率・尤度を計算

核家族のディプロタイプが与えられたとき、その尤度は、両親のディプロタイプから、子のディプロタイプが生まれる確率を計算する 子が複数のときは、子ごとに確率を計算して、それを掛け合わせる 核家族のメンバーが取りうるディプロタイプがわかっていると…

核家族の確率・尤度をピボットで連結する

SumPivot<-function(cpnout,like,info){ ret<-NULL #pivotted<-set() #pivotted<-list() pivotted<-rep(0,length(info)) cumulProb<-list() for(nn in 1:length(cpnout)){ tmpdim<-dim(cpnout[[nn]][[1]]) tmp<-rep(1,tmpdim[1]) if(pivotted[[cpnout[[nn]][…

核家族ごとにディプロタイプ総当たり条件の確率・尤度を計算する

LikeNucWithPrior<-function(cpnout,nucs,DiplotypePrior){ prob<-list() for(nn in 1:length(nucs)){ nucDimVector<-cpnout[[nn]][[2]] tmp<-DiplotypePrior[[nucDimVector[1]]] for(i in 2:length(nucDimVector)){ tmp<-tmp%o%DiplotypePrior[[nucDimVecto…

候補者がたくさんいて、網羅的に探すときはメンデリアンチェックで絞り込む

library(paramlink) tmpPed<-p[,1:5] tmpPed<-data.frame(ID=tmpPed[,1],FID=tmpPed[,3],MID=tmpPed[,2],SEX=tmpPed[,4]+1,AFF=tmpPed[,5]-1) tmpPed<-linkdat(tmpPed,model=1) # 候補者を当てはめて確定したジェノタイプがtmpG2 tttmpG<-tmpG2[,,1] for(i i…

DNA鑑定のためのマーカーデータ処理

目次 1. 家系を扱おう 2.マーカーごとに可能なディプロタイプ・ハプロタイプを選ぶ 3.考慮するアレルで絞る 4.核家族ごと・ディプロタイプを固定して、確率・尤度を計算 5.ディプロタイプの事前確率を考慮する 6.核家族ごとにディプロタイプ総当た…

マーカーごとに可能なディプロタイプ・ハプロタイプを選ぶ

マーカーが相互に独立な場合には、個々のマーカーに関して確率・尤度を計算して、積を取ることができる ゲノム全体にぱらぱらと置いたIdentifilerの場合には、この仮定でよい マーカーごとに次のように考える アレル数がのとき、ディプロタイプのタイプ数は…

考慮するアレルで絞る

ここにもあるように、マーカーのアレル数は非常に多い それは、アレル数が多い方が、伝達に関する情報が多く、鑑定の力が強いからである しかしながら、組み合わせ計算においては、場合の数を膨大にする源である 家系の解析で、気になるアレル(家系内に存在…

日本人のためのIdentifilerアレル情報

尤度計算に用いるアレル頻度 IdentifilerというDNA鑑定キットがある 15個のSTRマーカーを使う それの日本人のアレル頻度に関しては、[J Forensic Sci. 50(3): 718-719.:title=こちら]の報告がある。ちなみにSTR頻度に関してこちらのサイトもある 日本人270…

家系を扱おう

家系情報を作る 家系情報は行列にする 行の順番は時系列を守ること 後述するように、尤度・確率の計算では、核家族を分離して計算することで計算量を減らすように作っている。したがって、家系図にループがある場合には、後半が対応していないことに留意する…

複数いる尤度解析対象者、複数いる候補者、これらを網羅的に組み合わせる

CalcLikeForCandidates<-function(p,G,candidates,Gcandidates,Alleles,Probs){ # Gpoolの候補者が「ポピュレーションで観察される確率」をあらかじめ算出しよう LikeFromGenPop<-rep(0,length(Gpool2[,1,1])) for(i in 1:length(Alleles)){ tmp<-OffspringG…

複数のマーカーの確率・尤度を合わせる

CalcLikeZ<-function(p,G,nucs,Alleles,Probs){ tmpret<-0 for(na in 1:length(Alleles)){ A<-unlist(Alleles[[na]]) P<-Probs[[na]] g<-G[,,na] gpool<-G[,,na] #A2P2<-LimitAlleles(g,A,P) A2P2<-LimitAlleles(gpool,A,P) A2<-A2P2[[1]] P2<-A2P2[[2]] #LD…

DNA鑑定 書き直し

親子トリオ

# setf:父のディプロタイプの集合。アレルの集合(ホモなら要素数1、ヘテロなら要素数2) # setm:母のディプロタイプの集合 # seto:子のディプロタイプの集合 # 父母カップル LikeTrio<-function(setf,setm,seto){ couple<-setf*setm cnt<-0 for(i in couple…

メモ

t-testは正規分布由来のサンプルの検定をするにあたって、標本と母集団との間のずれを補正するためのもの 標本平均、標本分散、t分布 母平均、母分散、正規分布 t分布は標本数が大きくなると正規分布へ向かう t分布の基本形は、2群の標本数が同じで、2群の…