2009-08-01から1ヶ月間の記事一覧

相対危険度と閾値モデル

今、prevalence=prev, リスクアレルホモの非リスクアレルホモに対する相対危険度がrであるとする 今、この着目SNP以外の要因が平均0、分散1の正規分布であるとする 閾値モデルで、閾値Tにて発病するとすると、Tとpの関係は、Rの関数を使えば、T=qnorm(p=1-…

JGraphT

JGraphTは、Javaのグラフライブラリ こちらの記事を参照 ちなみにこの記事を載せたブログの管理者さんは、英語のチェックのこんなのもやっているし、Hatenarというサービスも管理しているとか。。。それによると、このryamada22ブログはこんな感じと。世の中…

リスクSNPの強さを分散ベースで評価してその検定パワーを計算する

講義説明用のツール。 たとえば以下のような条件を考えます(掲載図) 広義Heritability=0.6 着目SNPのアレル頻度は0.4 このSNPは遺伝因子全体の1%を説明する程度のものであって このSNPは集団でHWEを満足しており この疾病のphenocopy=0.2で 有病率が0.01 こ…

リスクSNPの強さを分散ベースで評価してその検定パワーを計算する

半自動で回す

図を回転させるには、視点を変える必要がある。ずーっと回し続けるには、視点を元に戻す必要がある。 GIFのファイルは、複数のGIFをまとめて1ファイルにすることで、パラパラ画像にすることができる。パラパラ画像には、パラパラめくるときの順序と、速さの…

3Dプロットを半自動で回す

昨日の続き こちらを参照。少し変えてあります。 2つのファイルを用意します。"File1.plt"と"File2.plt"の2つです 読み込みますので、カレントディレクトリに置いておくのがよいです。 "File1.plt"は以下のように、初期設定をして、繰り返しプロットをする…

その2 gnuplot for windowsで3次元プロットをぐるぐる回す

昨日の続き ケース・コントロールの2群が構造化のある集団からサンプリングされ、その構成にずれが生じているようなときに、そのサンプル2群のずれの方向にアレル頻度の勾配があるマーカーでのテストと、そのずれの方向とは直行する方向にアレル頻度の勾配…

gnuplot for windowsで3次元プロットをぐるぐる回す

上がったり下がったり

構造化集団からのサンプルにおいて、多数の検定を行い、それを補正する場合、統計量のインフレーションとそれに伴うp値の低下を均並みに補正することもあれば、統計量のインフレーションの原因である構造化から情報を抽出して個々の検定ごとに補正すること…

構造化集団多次元空間 その2

R

アレル頻度を多次元空間に法線ベクトルとそのベクトル上の「中央点」をとり、その方向について、単調増(減)のアレル頻度分布を にて与える 個体は多次元空間の点においてHWEを満足すると仮定する サンプリングは多次元空間上において(正規)確率密度で行わ…

構造化集団多次元空間

R

アレル頻度を多次元空間に正規分布を使って与える 個体は多次元空間の点においてHWEを満足すると仮定する サンプリングは多次元空間上において(正規)確率密度で行われる 異なるサンプリング集団間における集団構造の違いは、サンプリング確率密度分布のず…

sample関数 cbind関数

R

入力値 Nm:マーカー数 p:マーカーごとのアレル頻度。以下の例では、0-1の一様乱数でランダムに振ってある f:マーカーごとのディプロタイプ頻度に関するHWEからの逸脱度 r:マーカーごとのリスクの強さ。以下の例では、平均0、標準偏差0.01で振ってある。すべ…

講義で教える、『お手軽マンハッタンプロット』

ゲノムワイドの関連検定データが出たとする。DNA上の物理位置を横軸に、関連検定統計量を縦軸にプロットするのはルーチン。 ルーチンはだれでもできることが望ましい(できれば自分でやらずにだれかにやって欲しい…) 次のようなファイルがテキストファイル…

母関数 数列 確率分布 積率母関数 特性関数 その2

数列・確率分布における母関数がこのブログの取り扱い範囲内。このブログの取り扱い範囲外での母関数のことは(ひとまず)無視する 母関数・生成関数(Generating function)はある数値の並びを算出してくれる関数 有限個の数値の並びなら、ある意味で簡単。書…

母関数 数列 確率分布 積率母関数 特性関数

母関数は無限級数とそれに対応させた不定元の冪乗を含む関数(重み付け関数,kernel)とで表されたもの。(たいていは)無限個の項を使わない式表現がある。 母関数の種類(kernelの違い、kernelのタイプにより以下に分類される) 通常型母関数 指数型母関数 ポワソ…

下降階乗からHaskellへ

Ewens sampling formulaから調べ物をしていると階乗、下降階乗・上昇階乗などのサイトを閲覧することが増える。さらにその関連で第一種スターリング数、第二種スターリング数などもよく使う。また、確率密度関数とはそもそもなんだっけ、そしてその教科書の…

再整理

このブログはいろいろなウェブコンテンツと相互リンクを張っている。ときおり、整理を試みるも、すぐに、収集がつかなくなる。 新しい相互リンク先が京大統計遺伝学分野Wiki(こちら)。 それぞれのリンク先もサーバ引越などを繰り返しているが、現時点での最…

同胞は親子よりも似ている

Covariance between relatives additive varianceは家系図的距離で効いてくる dominace varianceは家系図にループがあるときに効いてくる Full siblingsの場合、sib1->mother->sib2->father->sib1のループがある Double first cousinsの場合、cousin1(c1)->c…

Ewens sampling formulaを遺伝現象的に説明し直す

Ewens sampling formulaは以下の式で表され、 [tex:Pr*1=\frac{n!\theta^k}{\theta^{\[n\]}}\prod_{i=1}^n \frac{1}{i^{m_i}m_i!}], このような式であらわされるような突然変異の係数について、サンプル数nのときの、異なるアレルの数の期待値は[tex:\sum le…

分割の個数を出す

Ewens sampling formulaについて数日前に書いた。それは、ある正の整数を正の整数の和で表す表し方と関係していることも書いた。 このように整数を整数の和で表すことを整数分割という。それについては、こちらを参照。 その整数分割のパターン数をJavaでべ…

関連づける

ODPをかいつまむと、複数のものを一括して取り扱うことで、より正確に、ということを、検定に対して行っている、とも言える。 複数のものを一括して取り扱うことで、推定値がより正確になる、という現象は、Stein's paradoxである。 Shrinkage estimatorも関…

最強力検定

単独検定のときの最強力検定については、Neyman-Pearson の補題を参照(こちら) 多仮説検定のときは事情が異なる FDRはその解決策の一つ Optimal discovery procedureもその延長線上 False positive数を与え、その条件でTrue positive数を最大化する Optima…

区切りを作る

n個の要素の列がある。n種類の線分に切り分けることを考える。要素なしの線分が出来てもよい。 n個の要素が作るn-1箇所の間隙と、n個の要素の両端2箇所の合わせてn+1箇所に区切りを入れることが可能で、区切りの数は、n種類の線分の境界であるn-1箇所。n-1…

イーエンス確率分割 Ewens sampling formula

個票開示問題とは個人が特定される問題 こちらのスライド資料を参照 イーエンス確率分割とピットマン確率分割 こちらのPDFを参照 Ewensはn個の中立な遺伝子変異が作る異なる遺伝子型の分割としてイーエンス確率分割を導いた イーエンス確率分割を1形態とし…

集団構造化・Inbreeding・IBDの指標の意味するところ

Fst

集団の構造化をFstで表したり、Inbreeding coefficiency Fがヘテロ接合体の比率に影響を与えたりする。FstはHeterozygosityを階層的に定め、それらの関係を示す一連のF値の一つである。 これらは、どういう指標であって、どういう関係にあるのだろう。 構造…