2019-10-09

歩幅１の酔歩

d次元空間を原点から出発して、歩幅を1に固定して歩き回ることにする
k歩目での原点からの距離の期待値はいくつになるかをシミュレーションで計算してみる
$d = \sqrt{k}$ に収束するらしい

f:id:ryamada22:20191009171001j:plain

2019-09-29

ガウシアンカーネル、カーネル・トリック

カーネルカーネルトリックガウシアンカーネルノンパラメトリック

カーネルトリックというのがある
カーネル関数を使って、データの次元を上げてやり、上げた次元で簡単な処理（線形処理）をした結果を返すことで、データのオリジナルな次元空間での非線形な出力を得るような時に使うのだが、トリックなのは、上げた次元での計算をせず、オリジナルの座標のみで計算して高次元処理の果実を取る、という部分
簡単で次元の上げ幅が小さいカーネル関数としては、データの次元が２次元(x1,x2)の時に、(x1,x2,x3=x1*x2)という３次元にあげるものがある
また、次元の上げ幅は大きいが、簡単なカーネル関数として、ガウシアン・カーネルがある。ガウシアン・カーネルでは、オリジナルなデータ空間の「全ての点」に対して、カーネル関数を使うことで、「全ての点の次元＝無限次元」にする
ガウシアン・カーネルは正規分布の形をした関数だが、これを有限個のデータ点に適用するということは、ガウシアン・カーネルを使ったノンパラメトリック・分布推定をしているのと同じこと
ガウシアン・カーネルを使って無限次元空間に上げる、ということは、「滑らかな分布関数を推定する」ということ
単なる分布推定だが、カーネル埋め込みの用語で言えば、その滑らかな関数が「無限の点に対応する値」を持つので、その無限の点のそれぞれを次元とした、無限次元空間を考えると、埋め込まれた先がヒルベルト空間の点になる、と説明される。このヒルベルト空間が再生核ヒルベルト空間
実際、ガウシアン・カーネルによって再生核ヒルベルト空間上の点に対応させたとき、それは滑らかな分布関数だから、オリジナルの標本が示す、オリジナルな分布のモーメントの情報を持っている
カーネル関数の返り値は「密度関数」なので、密度の重みをつけてモーメント計算すること
以下はそれを（自明な）１次元分布でやってみたもの

2019-09-03

ディリクレ過程混交正規分布様球面分布

R ディリクレ過程混合正規分布方向統計球面ドロネー三角化凸包 Stick breaking

球面に粗密がランダムな点を取りたい
ディリクレ過程で定まる無限項の多項分布を想定し、個々の項に対応して球面正規分布様のそれを取る
ただし、球面積分布様のそれ、とは、球面上の一様乱点を接点とする接面に、接点を中心とした2次元正規分布をとる。その2次元正規分布の分散共分散行列もランダム発生する
以下の文書の後半はこちらのコピー

2019-09-03

疑似1細胞発現データを作る

R 多項分布サンプリング 1細胞 NGS

複数の細胞からのデータがある
細胞数が分かっている
リード数を細胞数に分けて、疑似１細胞発現データを作りたい
sample()関数を使って疑似作成できることを示し

# 検体数 N
# ある遺伝子のNGSリード数が Mだった
# m1 + ... + mN = M; mi >= 0となるような{mi}をランダムに生成したい

N <- 100
M <- 50

# M本のリードを1:Nの検体にランダムに(等確率で)割り付ける
s <- sample(1:N,M,replace=TRUE)
# 検体IDごとに集計する
t <- tabulate(s)

# 関数にする
my.divide.reads <- function(N,M){
	s <- sample(1:N,M,replace=TRUE)
	t <- tabulate(s)
	ret <- rep(0,N)
	ret[1:length(t)] <- t
	return(ret)
}

そのうえで、多項分布でもできることを示す

# 別法
# 多項分布を使う
t2 <- rmultinom(1,M,rep(1,N))

T2 <- rmultinom(10000,M,rep(1,N))
apply(T2,1,mean)

S <- matrix(0,10000,N)
for(i in 1:10000){
	S[i,] <- my.divide.reads(N,M)
}

2019-08-22

Traceが１の自己随伴行列。そのpure stateとmixed state

行列量子情報幾何代数的確率論統計力学量子力学 R

Traceが１の自己随伴行列で固有値がすべて非負のものは、密度行列と呼ばれ、固有値が確率を、固有ベクトルが対応する（離散的）状態を表している
このような行列のうち、単位ベクトルの複素共役クロネッカー積([tex:|x>

Methods of Information Geometry (Tanslations of Mathematical Monographs)

作者: Shun-Ichi Amari,Hiroshi Nagaoka,Daishi Harada
出版社/メーカー: Amer Mathematical Society
発売日: 2007/04/13
メディア: ペーパーバック
クリック: 2回
この商品を含むブログ (1件) を見る

の第7章の冒頭（145ページ、146ページ）

2019-08-02

generalized procrustes analysis

多変量解析の１つ
多検体・多変量情報があったときに、それを一括して処理して、多検体の「平均」を求める
多変量情報については、値の伸び縮みをさせたりする
空間座標が多変量情報の場合には、回転させたりもする
そのようにして、「位置合わせ」をして、多検体の比較の標準化を提供しつつ
多変量間の関係をRV coefficient行列として提供してもくれる
RV coefficientの情報から変量の分類・クラスタリングなどもできる
Rでは、形関連のGPAとしてshapesパッケージが、多変量解析の１つとして他の多変量解析手法とともにFactoMineRパッケージがGPAを形解析用とは銘打たないで提供している

2019-08-02

正準相関解析、stats::cancor()とcandisc::cancor()

正準相関解析 Canonical correlation R cancor candisc

解説記事