歩幅1の酔歩
- d次元空間を原点から出発して、歩幅を1に固定して歩き回ることにする
- k歩目での原点からの距離の期待値はいくつになるかをシミュレーションで計算してみる
- に収束するらしい
ガウシアンカーネル、カーネル・トリック
- カーネルトリックというのがある
- カーネル関数を使って、データの次元を上げてやり、上げた次元で簡単な処理(線形処理)をした結果を返すことで、データのオリジナルな次元空間での非線形な出力を得るような時に使うのだが、トリックなのは、上げた次元での計算をせず、オリジナルの座標のみで計算して高次元処理の果実を取る、という部分
- 簡単で次元の上げ幅が小さいカーネル関数としては、データの次元が2次元(x1,x2)の時に、(x1,x2,x3=x1*x2)という3次元にあげるものがある
- また、次元の上げ幅は大きいが、簡単なカーネル関数として、ガウシアン・カーネルがある。ガウシアン・カーネルでは、オリジナルなデータ空間の「全ての点」に対して、カーネル関数を使うことで、「全ての点の次元=無限次元」にする
- ガウシアン・カーネルは正規分布の形をした関数だが、これを有限個のデータ点に適用するということは、ガウシアン・カーネルを使ったノンパラメトリック・分布推定をしているのと同じこと
- ガウシアン・カーネルを使って無限次元空間に上げる、ということは、「滑らかな分布関数を推定する」ということ
- 単なる分布推定だが、カーネル埋め込みの用語で言えば、その滑らかな関数が「無限の点に対応する値」を持つので、その無限の点のそれぞれを次元とした、無限次元空間を考えると、埋め込まれた先がヒルベルト空間の点になる、と説明される。このヒルベルト空間が再生核ヒルベルト空間
- 実際、ガウシアン・カーネルによって再生核ヒルベルト空間上の点に対応させたとき、それは滑らかな分布関数だから、オリジナルの標本が示す、オリジナルな分布のモーメントの情報を持っている
- カーネル関数の返り値は「密度関数」なので、密度の重みをつけてモーメント計算すること
- 以下はそれを(自明な)1次元分布でやってみたもの
疑似1細胞発現データを作る
- 複数の細胞からのデータがある
- 細胞数が分かっている
- リード数を細胞数に分けて、疑似1細胞発現データを作りたい
- sample()関数を使って疑似作成できることを示し
# 検体数 N # ある遺伝子のNGSリード数が Mだった # m1 + ... + mN = M; mi >= 0となるような{mi}をランダムに生成したい N <- 100 M <- 50 # M本のリードを1:Nの検体にランダムに(等確率で)割り付ける s <- sample(1:N,M,replace=TRUE) # 検体IDごとに集計する t <- tabulate(s) # 関数にする my.divide.reads <- function(N,M){ s <- sample(1:N,M,replace=TRUE) t <- tabulate(s) ret <- rep(0,N) ret[1:length(t)] <- t return(ret) }
- そのうえで、多項分布でもできることを示す
# 別法 # 多項分布を使う t2 <- rmultinom(1,M,rep(1,N)) T2 <- rmultinom(10000,M,rep(1,N)) apply(T2,1,mean) S <- matrix(0,10000,N) for(i in 1:10000){ S[i,] <- my.divide.reads(N,M) }
Traceが1の自己随伴行列。そのpure stateとmixed state
- Traceが1の自己随伴行列で固有値がすべて非負のものは、密度行列と呼ばれ、固有値が確率を、固有ベクトルが対応する(離散的)状態を表している
- このような行列のうち、単位ベクトルの複素共役クロネッカー積([tex:|x>
Methods of Information Geometry (Tanslations of Mathematical Monographs)
- 作者: Shun-Ichi Amari,Hiroshi Nagaoka,Daishi Harada
- 出版社/メーカー: Amer Mathematical Society
- 発売日: 2007/04/13
- メディア: ペーパーバック
- クリック: 2回
- この商品を含むブログ (1件) を見る
- の第7章の冒頭(145ページ、146ページ)
generalized procrustes analysis
- 多変量解析の1つ
- 多検体・多変量情報があったときに、それを一括して処理して、多検体の「平均」を求める
- 多変量情報については、値の伸び縮みをさせたりする
- 空間座標が多変量情報の場合には、回転させたりもする
- そのようにして、「位置合わせ」をして、多検体の比較の標準化を提供しつつ
- 多変量間の関係をRV coefficient行列として提供してもくれる
- RV coefficientの情報から変量の分類・クラスタリングなどもできる
- Rでは、形関連のGPAとしてshapesパッケージが、多変量解析の1つとして他の多変量解析手法とともにFactoMineRパッケージがGPAを形解析用とは銘打たないで提供している