線形回帰をリサンプリングでやってみる

  • 線形回帰式はデータセットから1つ得られる
  • ばらつかせたい
  • データセットは一つしかないので、リサンプリングすることで、データセットの疑似バリエーションを作るとする
  • 標本の一部を取り出してみる場合と、標本と同数の標本を重複アリなリサンプリングしてみる場合とでやってみる

ガウシアンカーネル、カーネル・トリック

  • カーネルトリックというのがある
  • カーネル関数を使って、データの次元を上げてやり、上げた次元で簡単な処理(線形処理)をした結果を返すことで、データのオリジナルな次元空間での非線形な出力を得るような時に使うのだが、トリックなのは、上げた次元での計算をせず、オリジナルの座標のみで計算して高次元処理の果実を取る、という部分
  • 簡単で次元の上げ幅が小さいカーネル関数としては、データの次元が2次元(x1,x2)の時に、(x1,x2,x3=x1*x2)という3次元にあげるものがある
  • また、次元の上げ幅は大きいが、簡単なカーネル関数として、ガウシアン・カーネルがある。ガウシアン・カーネルでは、オリジナルなデータ空間の「全ての点」に対して、カーネル関数を使うことで、「全ての点の次元=無限次元」にする
  • ガウシアン・カーネル正規分布の形をした関数だが、これを有限個のデータ点に適用するということは、ガウシアン・カーネルを使ったノンパラメトリック・分布推定をしているのと同じこと
  • ガウシアン・カーネルを使って無限次元空間に上げる、ということは、「滑らかな分布関数を推定する」ということ
  • 単なる分布推定だが、カーネル埋め込みの用語で言えば、その滑らかな関数が「無限の点に対応する値」を持つので、その無限の点のそれぞれを次元とした、無限次元空間を考えると、埋め込まれた先がヒルベルト空間の点になる、と説明される。このヒルベルト空間が再生核ヒルベルト空間
  • 実際、ガウシアン・カーネルによって再生核ヒルベルト空間上の点に対応させたとき、それは滑らかな分布関数だから、オリジナルの標本が示す、オリジナルな分布のモーメントの情報を持っている
  • カーネル関数の返り値は「密度関数」なので、密度の重みをつけてモーメント計算すること
  • 以下はそれを(自明な)1次元分布でやってみたもの

ディリクレ過程混交正規分布様球面分布

  • 球面に粗密がランダムな点を取りたい
  • ディリクレ過程で定まる無限項の多項分布を想定し、個々の項に対応して球面正規分布様のそれを取る
  • ただし、球面積分布様のそれ、とは、球面上の一様乱点を接点とする接面に、接点を中心とした2次元正規分布をとる。その2次元正規分布の分散共分散行列もランダム発生する
  • 以下の文書の後半はこちらのコピー

疑似1細胞発現データを作る

  • 複数の細胞からのデータがある
  • 細胞数が分かっている
  • リード数を細胞数に分けて、疑似1細胞発現データを作りたい
  • sample()関数を使って疑似作成できることを示し
# 検体数 N
# ある遺伝子のNGSリード数が Mだった
# m1 + ... + mN = M; mi >= 0となるような{mi}をランダムに生成したい

N <- 100
M <- 50

# M本のリードを1:Nの検体にランダムに(等確率で)割り付ける
s <- sample(1:N,M,replace=TRUE)
# 検体IDごとに集計する
t <- tabulate(s)

# 関数にする
my.divide.reads <- function(N,M){
	s <- sample(1:N,M,replace=TRUE)
	t <- tabulate(s)
	ret <- rep(0,N)
	ret[1:length(t)] <- t
	return(ret)
}
  • そのうえで、多項分布でもできることを示す
# 別法
# 多項分布を使う
t2 <- rmultinom(1,M,rep(1,N))

T2 <- rmultinom(10000,M,rep(1,N))
apply(T2,1,mean)

S <- matrix(0,10000,N)
for(i in 1:10000){
	S[i,] <- my.divide.reads(N,M)
}

Traceが1の自己随伴行列。そのpure stateとmixed state

Methods of Information Geometry (Tanslations of Mathematical Monographs)

Methods of Information Geometry (Tanslations of Mathematical Monographs)

  • の第7章の冒頭(145ページ、146ページ)

generalized procrustes analysis

  • 多変量解析の1つ
  • 多検体・多変量情報があったときに、それを一括して処理して、多検体の「平均」を求める
  • 多変量情報については、値の伸び縮みをさせたりする
  • 空間座標が多変量情報の場合には、回転させたりもする
  • そのようにして、「位置合わせ」をして、多検体の比較の標準化を提供しつつ
  • 多変量間の関係をRV coefficient行列として提供してもくれる
  • RV coefficientの情報から変量の分類・クラスタリングなどもできる
  • Rでは、形関連のGPAとしてshapesパッケージが、多変量解析の1つとして他の多変量解析手法とともにFactoMineRパッケージがGPAを形解析用とは銘打たないで提供している