メモ
- 昨日の続き
- 2つの多様体があって、それぞれが確率密度分布(のようなもの)であるとき
- その2つの多様体が独立であるときには、2つの多様体の同時確率密度分布に相当する多様体は、もとの2つの多様体の次元がm1,m2であったとして、m1 x m2
- そしてその疎密は、同時分布の積で定まるもの。m1 x m2次元の多様体の広さも、十分に膨らんでいる
- 2つの多様体が独立でないときは、同時確率密度分布に相当する多様体は、最も、つぶれた場合でmin(m1,m2)次元で、m1 x m2次元的な体積は0。密度は、min(m1,m2)次元空間で定義されるようなそれ(??かな)。それほどのつぶれ方でないときも、「つぶれて」いるから体積のようなものが小さく(狭く)、密度が上がっている
- 第1の確率密度分布が次元
で
という確率密度分布を持つとする。ただし
- また第2の確率密度分布が次元
で
という確率密度分布を持つとする。ただし
- 2つの確率密度分布が独立なら同時分布は
,
- 独立でないなら、
- 標本を見て、
のどちらなのかを考える、というのが検定
- 標本を見て、
の違いを定量するのが、相関指標の計算。ただし、もっとも強い相関は、
が
なる(無限長の?)1次元多様体になっているとき
- この方法で行くと、次のような例ができる。これは2つの元分布は一様分布で、相互の関係は、かたや1次元多様体になっていて、かたや2次元多様体になっている
n <- 10000 x <- runif(n) y <- x y[which(x>1/3)] <- 1-x[which(x>1/3)] y[which(x>2/3)] <- x[which(x>2/3)] # 独立な場合 y0 <- sample(y) par(mfcol=c(2,2)) hist(x) hist(y) plot(x,y) plot(x,y0)