メモ

  • 昨日の続き
  • 2つの多様体があって、それぞれが確率密度分布(のようなもの)であるとき
  • その2つの多様体が独立であるときには、2つの多様体の同時確率密度分布に相当する多様体は、もとの2つの多様体の次元がm1,m2であったとして、m1 x m2
  • そしてその疎密は、同時分布の積で定まるもの。m1 x m2次元の多様体の広さも、十分に膨らんでいる
  • 2つの多様体が独立でないときは、同時確率密度分布に相当する多様体は、最も、つぶれた場合でmin(m1,m2)次元で、m1 x m2次元的な体積は0。密度は、min(m1,m2)次元空間で定義されるようなそれ(??かな)。それほどのつぶれ方でないときも、「つぶれて」いるから体積のようなものが小さく(狭く)、密度が上がっている
  • 第1の確率密度分布が次元m_1p_1(\mathbf{x_1})という確率密度分布を持つとする。ただし\forall \mathbf{x_1}, p_1(\mathbf{x_1}) \ge 0, \int_{\mathbf{x_1} \in M_1} p_1(\mathbf{x_1}) d\mathbf{x_1} = 1
  • また第2の確率密度分布が次元m_2p_2(\mathbf{x_2})という確率密度分布を持つとする。ただし\forall \mathbf{x_2}, p_2(\mathbf{x_2}) \ge 0, \int_{\mathbf{x_2} \in M_2} p_2(\mathbf{x_2}) d\mathbf{x_2} = 1
  • 2つの確率密度分布が独立なら同時分布はq_0(\mathbf{x_1},\mathbf{x_2}) = p_1(\mathbf{x_1}) \times p_2(\mathbf{x_2}),M_{1,2} = M_1 \otimes M_2
  • 独立でないなら、q_0(\mathbf{x_1},\mathbf{x_2}) \ne p_1(\mathbf{x_1}) \times p_2(\mathbf{x_2})
  • 標本を見て、q_0,q_1のどちらなのかを考える、というのが検定
  • 標本を見て、q_0,q_1の違いを定量するのが、相関指標の計算。ただし、もっとも強い相関は、q_1m_{1,2}=1なる(無限長の?)1次元多様体になっているとき
  • この方法で行くと、次のような例ができる。これは2つの元分布は一様分布で、相互の関係は、かたや1次元多様体になっていて、かたや2次元多様体になっている

n <- 10000
x <- runif(n)
y <- x
y[which(x>1/3)] <- 1-x[which(x>1/3)]
y[which(x>2/3)] <- x[which(x>2/3)]
# 独立な場合
y0 <- sample(y)

par(mfcol=c(2,2))
hist(x)
hist(y)
plot(x,y)
plot(x,y0)