■

分布正規分布次元カイ分布球多次元球

平均０、分散１の正規分布は自由度ｋのカイ分布(カイ自乗ではなく)は k次元球の表面積はこれらを使うと、自由度kのカイ分布はこれは、が表すように、原点から、遠ざかると確率が小さくなる分布であって、その小さくなり方が、正規分布と同じように、が一…

2010-02-26

一般正規分布・一般誤差分布・指数べき分布

分布

変数の置き方を変えるととかとか書ける。のときは指数分布を正負で対象にしてやったもののときは正規分布これは、であることによる。

2010-02-26

分布をすこしずつ変える

分布 R

今日(２月２５日)は国公立大学の入学試験。春のような暖かさの中、緊張した顔つきの受験生が見えます。緊張することはいいことです。みんな、がんばって欲しいです。わからないことがたくさんあって、それがわかることは素敵ですから、是非、大学へ！さて…

2010-02-26

矩形分布から指数分布・正規分布を経て一様分布へ（誤差分布)

2010-02-25

2dhist()

２次元ヒストグラム R

n1 <- 500 n2 <- 300 n3 <- 200 x <- c(rnorm(n1, 0, 0.5), rnorm(n2, 5, 1), rnorm(n3, 8, 2)) y <- c(rnorm(n1, 0, 2), rnorm(n2, 3, 2), rnorm(n3, -3, 1)) library(gregmisc) plot(x, y) h2d <- hist2d(x, y, show = FALSE, same.scale = TRUE, nbins = …

2010-02-25

Rで2次元ヒストグラム

2010-02-24

MDS

固有値分解 MDS R

サンプルの多次元データが与えられているときに、特異値分解や、分散共分散行列の固有値分解をする話しが昨日まで。 MDSっていうのもある。こちらは、サンプルに関してペアワイズの距離が与えられているとき、サンプル間の内積行列を再構成してやって、それ…

2010-02-24

MDS 多次元尺度構成法と固有値分解

2010-02-23

中心化後特異値分解と固有値分解

特異値分解固有値分解 PCA R

参考こちらが特異値分解。変形して。これを解いて、S,V->Uが得られる。今、Xを中心化するとはXの分散共分散行列に比例した値になるので、中心かした特異値分解と固有値分解は、同じようなもの。 #構造化集団をシミュレート Nm<-1000 #マーカー数 Npop<…

2010-02-22

ジェノタイプデータのＰＣＡ補正

R 集団構造化 Eigenstrat PCA

昨日の続き PCAにより、ＧＷＡＳのジェノタイプデータでいくつかの軸情報で個人に「位置情報」が与えられる個人の位置情報に応じて、個人のフェノタイプ(ケース・コントロール)とＳＮＰのジェノタイプの値を補正する補正したフェノタイプと補正したジェノ…

2010-02-22

RでSNPデータのEigenstrat検定補正

2010-02-21

ジェノタイプデータのＰＣＡその２

R 集団構造化 Eigenstrat PCA

昨日の続きでは、正方行列を作らずに、非正方行列のままsvd()をかけるとどうなるかもやってみます。同じ構造を表す固有値と固有ベクトルが取れました。 #構造化集団をシミュレート Nm<-1000 #マーカー数 Npop<-4 #亜集団数 Ns<-c(100,150,200,250) #集団別…

2010-02-21

RでSNPデータのPCAプロットその２ svd()

2010-02-20

ジェノタイプデータのＰＣＡ eigen()

R 集団構造化 Eigenstrat PCA

集団構造化があるときに、PCAして、プロットすることがある。その情報を使って、形質マッピング検定に用いる前座のようなもの。この論文がEigenstratのそれですが。ここでやっている、PCA部分をRでなぞってみます #構造化集団をシミュレート Nm<-1000 #マ…

2010-02-20

RでSNPデータのPCAプロット eigen()

2010-02-07

■

R 連鎖不平衡 R 連鎖不平衡

Rのimage()関数を使ってペアワイズＬＤプロットを簡単に描く方法を以前書いた(こちら)。今日は、ハプロタイプの01表記ファイル"hoge.txt"から描くことにする。横がマーカー、縦に染色体。こんな感じ。 0 0 0 0 1 0 1 1 0 1 0 1 1 0 0 1 1 1 0 0 1 0 0 0 1 …

2010-02-07

いろいろ数え上げる

R 順列組み合わせカタラン数ベル数第２スターリング数重複順列重複組み合わせ

数え上げ # 順列 permN<-function(N=10,k=3){ return(exp(lgamma(N+1)-lgamma((N-k)+1))) } 組み合わせ combN<-function(N=10,k=3){ return( exp(lgamma(N+1)-lgamma((N-k)+1)-lgamma(k+1)) ) } 重複順列 repPermN<-function(N=10,k=3){ return(N^k) } 重複…

2010-02-07

RでLDプロット　その２

2010-02-06

ROCカーブのAUCの信頼区間に関するメモ

R ROCカーブ AUC

ROC,AUCに関する概論はこちら。 Rには、DiagnosisMed というパッケージがあって、それにROC()という関数がある。出力はこんな感じ Sample size: 170 Sample prevalence: 0.4118 Population prevalence: 0.4118 - same as sample prevalence if not informed…

2010-02-05

アレルの分岐図

Coalescent

家系図は、個人の遺伝的伝達を図示したもの染色体上のアレルも伝達される。いくつも木ができる染色体数を固定する。すべての染色体がペアを作って、そのペアに２本の新たな染色体を作らせる経過で、木がどうなるかを描かせてみるローカスの移動に伴って…

2010-02-05

Rでコアレセントシミュレーション

2010-02-04

記号

家系図

家系図記号というのがある。だれがどこで統一指標を出しているのかと気になった。日本人類遺伝学会のサイトには(すぐには)見当たらず、信州大学のサイトには、「アメリカ人類遺伝学会」が参照先として記載されていた(こんな感じ)。アメリカ人類遺伝学会の…

2010-02-03

クラスタリングの場合の数　その２

トポロジー R グラフ木

Ｒにphangornというパッケージ(CRAN記事はこちら)があって、その中のallTrees()という関数があって、それが数え上げてくれる。ただし、すべての木を作る関数なので、葉の数は１０個まで。 library(phangorn) allTrees(5) 15 phylogenetic trees trees <- all…