PCA

行列でPCA

シリーズの目次 --- title: "PCA with Matrix 行列でPCA" author: "ryamada" date: "2016年12月24日" output: html_document: toc: true toc_depth: 6 number_section: true --- ```{r setup, include=FALSE} library(knitr) opts_chunk$set(echo = TRUE) li…

行列の特徴

シリーズの目次 --- title: "Properties of matrices 行列の特徴" author: "ryamada" date: "2016年12月22日" output: html_document: toc: true toc_depth: 6 number_section: true --- ```{r setup, include=FALSE} library(knitr) opts_chunk$set(echo = …

PCAとその発展(カーネルPCA、欠測値対応、latent variable-PCA,GP-LVM)

参考 Rmdで書いてみる PCAとその周辺のために、Rのパッケージkernlab,pcaMethods,dmtを使って、処理をなぞってみる 基本的には固有値分解という、よいライブラリが準備されていて解釈も簡単な線形代数計算に帰着させよう、という手法で、一番基本的ないわゆ…

PCAとサポートベクターマシン

サポートベクターマシンはマシンラーニングの基本 Matlabとか数値計算系で実装が先行していて、Rでは追随、という形 パッケージe1071が先行のlibsvmとかを実装しているそうだ kernlabっていうのものサポートベクターマシンの基本的な手法をサポートすること…

PCAと欠測値ありのPCA

PCAは少ない軸で高次元データを説明する手法(べたにやるならこちらとか) 欠測値がないことを前提にして作られている じゃあ欠測値があるときには、というと、足りないところを埋めながらPCAすることになる。埋めてからPCAする、というのもありだが、PCAしな…

なんちゃって正規直交基底

こちらで多次元オブジェクトの減次元視覚という話をしている 何かしらのルールで情報量の多さを定め、その多い順に軸を定めつつ、正規直交基底を取り出したい、ということ PCAと同じ話 ただしPCAでは、情報量の多さとは、軸に関する分散の大きさであって、線…

中心化後特異値分解と固有値分解

参考こちら が特異値分解。 変形して 。 これを解いて、S,V->Uが得られる。 今、Xを中心化すると はXの分散共分散行列に比例した値になるので、中心かした特異値分解と固有値分解は、同じようなもの。 #構造化集団をシミュレート Nm<-1000 #マーカー数 Npop<…

ジェノタイプデータのPCA補正

昨日の続き PCAにより、GWASのジェノタイプデータでいくつかの軸情報で個人に「位置情報」が与えられる 個人の位置情報に応じて、個人のフェノタイプ(ケース・コントロール)とSNPのジェノタイプの値を補正する 補正したフェノタイプと補正したジェノ…

ジェノタイプデータのPCAその2

昨日の続きでは、正方行列を作らずに、非正方行列のままsvd()をかけるとどうなるかもやってみます。 同じ構造を表す固有値と固有ベクトルが取れました。 #構造化集団をシミュレート Nm<-1000 #マーカー数 Npop<-4 #亜集団数 Ns<-c(100,150,200,250) #集団別…

ジェノタイプデータのPCA eigen()

集団構造化があるときに、PCAして、プロットすることがある。 その情報を使って、形質マッピング検定に用いる前座のようなもの。 この論文がEigenstratのそれですが。 ここでやっている、PCA部分をRでなぞってみます #構造化集団をシミュレート Nm<-1000 #マ…

PCAの歪み

PLoS Geneticsの論文です。 A Genealogical Interpretation of Principal Components Analysis. by Gil McVean non-parametricに次元圧縮をする手法であるPCA,SVDからの情報を使って、コアレセントモデルにあてはめて推定する話し PCAとその親類であるSVD…

EigenstratでLD関係の調整

PCA

PCAを用いたEigenstratにより、サンプルの遠近関係を分析することがある。そのときに、LDが強いマーカーは、解析全体に影響を及ぼすので、強いLD関係にあるマーカーを組み込みすぎないようにするオプションがある。その方法を友人に教えてもらった src/eigen…

2次元に3次元情報

PCA R

主成分分析で個人間の遺伝的遠近関係を評価し、それをプロットすることがある。主要2軸で十分に表現できることもあるが、それだけだとよく分からないこともある。 そんなときには、3軸が作る3つの2次元プロットを見較べるのも手であるが、3軸目の情報を…