遺伝子多型解析を数か月でできるようになるために〜第3回

  • 2011/06/17実施
  • 『Applied Statistical Genetics With R』の読み会シリーズの目次
  • 『「これ(X)とこれ(Y)」の関係を見たい』
    • X,Yはそれぞれ「カテゴリ」・「連続」でありうる
    • 「カテゴリ」は「順序あり」・「順序なし」でありうる
    • 「カテゴリ」は2個のときと3個以上のときとで扱いが変わる
    • このX,Yのタイプ別に諸方法がある。その話
  • コマンド・資料はこちら
  • 確率と尤度

http://www.genome.med.kyoto-u.ac.jp/func-gen-photo/albums/StatGenetTextbook/PartIII-027.jpeg

  • 組み合わせ関数choose()
N <- 10; H <- 7; T <- N-H
choose(N,H) * x^H * (1-x)^T
  • 関数を定義して、それを使って、カーブを描く関数curve()
f <- function(x){
	choose(N,H) * x^H * (1-x)^T
}

curve(f,0,1)
  • 交絡因子など
    • 見たい因子が2つあれば、それ以外は、「関連するその他の因子」
    • 「関連するその他の因子」をどう扱うか、どうとらえるかで名前が違う
    • 関係をグラフ的にモデル化すれば、「関連するその他の因子」の「関与の仕方」は「グラフ的な立ち位置」で表現できる。その「立ち位置」の種類は思っているよりもたくさんあるはずで、全部に名前をつけるよりは、グラフパターンで分類するのが得策か…
  • OR
  • Fisher's exact test 自由度が大きくなると計算できなくなる
> t<-matrix(c(10,20,30,40,50,60,70,80,90),nrow=3)
> t
     [,1] [,2] [,3]
[1,]   10   40   70
[2,]   20   50   80
[3,]   30   60   90
> fisher.test(t)
 以下にエラー fisher.test(t) : FEXACT error 6.
LDKEY is too small for this problem.
Try increasing the size of the workspace.
  • 自由度の算出
DF <- prod(dim(x)-1)
  • Association for tables and correlation for quantitatives
    • 順序ありのカテゴリ尺度がどんどん細かくなると、correlationに近くなる

http://www.genome.med.kyoto-u.ac.jp/func-gen-photo/albums/StatGenetTextbook/PartIII-046-2.jpeg
http://www.genome.med.kyoto-u.ac.jp/func-gen-photo/albums/StatGenetTextbook/PartIII-047.jpeg

  • Rの描図フレームを分割しよう
    • par(mfcol=c(1,2))
    • par(mfrow=c(2,3))
    • layout(matrix(c(1,1,2,2,3,3,3,3),2,4))
  • 関数の返り値オブジェクトから、特定の要素を取り出すために。str()関数
x <- data.frame(Men=rnorm(20,mean=20), Women=rnorm(20, mean=18))
round(x, digit=1)

# two-sample t-test
t.test(x$Men, x$Women)

# wilcox
wilcox.test(x$Men, x$Women)
wout<-wilcox.test(x$Men, x$Women)
str(wout)
  • 脱線