非独立な確率変数が2つ

  • あらすじ
    • 独立な2確率変数がガンマ分布に従っているとき、その和もガンマ分布に従うこと、また、和の分布のパラメタは元の2変数のパラメタから計算できることを書いた
    • また、2つの一様分布に従う確率変数が相互に非独立であるその関係は千差万別であるが、ある特定の非独立関係を想定した。それは、2つの確率変数がある一つの(2次元)正規乱数を2つの方法で自由度1の検定をしたときのカイ自乗統計量から個々の検定の自由度に応じて算出した2種類のp値分布であった
    • このような『特別な非独立関係』は2つの直交しないベクトルが定める
    • 相互に直交しない単位ベクトルとの内積の二乗は自由度1のカイ自乗統計量である
    • このカイ自乗統計量の和を『和統計量』とすることにする
    • この和統計量が描く等高線が楕円となる
    • 楕円を等高線とする統計量は、相互に直交する「非単位ベクトル」との内積の二乗を統計量としたときの和としても表せる
    • 「非単位ベクトル」が定める統計量は、自由度1のカイ自乗分布(\theta = 2,k=0.5のガンマ分布)のスケールを変えたものなので、\theta \ne 2, k=0.5のガンマ分布である
    • 「非単位ベクトル」が定める統計量はガンマ分布であって、それらは「直交」しているので、和であるガンマ分布のパラメタが算出できる
    • 以下に、上述した流れをRを用いて示すこととする
  • 非独立であるから楕円
    • 2次元正規分布では、原点からの距離xの確率は自由度2のカイ自乗分布に従う
    • 2つの単位ベクトルのなす角を\phiとし、2つの多にベクトルを(\cos(-\frac{\phi}{2}),\sin(-\frac{\phi}{2}),(\cos(\frac{\phi}{2}),\sin(\frac{\phi}{2})とする
    • 原点からの距離がxの点(x\cos(\theta),x\sin(\theta))の2つの統計量は\chi_1^2 = x^2\cos^2(\theta+\frac{\phi}{2}),\chi_2^2 = x^2\cos^2(\theta-\frac{\phi}{2})
      • x=1の場合の\chi^2_{sum}=\chi^2_1+\chi^2_2の値との関係をプロットするとつぎのようになり、実際\chi^2_{sum}= x^2(1 + (2\cos(\frac{\phi}{2})^2-1)\cos(2\theta))である(それもRで確かめる)
theta <- seq(from=0,to=1,length=100)*2*pi
phi <- pi/6
v <- cos(theta-phi/2)^2 + cos(theta+phi/2)^2
plot(theta,x)

v.2 <- 1+(2*cos(phi/2)^2-1)*cos(2*theta)
plot(v,v.2)


    • \chi^2_{sum}=1となるようなxの値は\thetaの関数であり、それはx=\sqrt{\frac{1}{(1+2\cos(\frac{\phi}{2})^2-1)\cos(2\theta)}}
      • これは以下のような楕円になり、この楕円は(\frac{1}{\sqrt{2}},\frac{1}{\sqrt{2}})\phiによらず通る
theta <- seq(from=0,to=1,length=100)*2*pi
phi <- pi/6
v <- cos(theta-phi/2)^2 + cos(theta+phi/2)^2
plot(theta,v)

v.2 <- 1+(2*cos(phi/2)^2-1)*cos(2*theta)
plot(v,v.2)

r <- 1/sqrt(v.2)

xlim <- ylim <- c(-max(r),max(r))
plot(r*cos(theta),r*sin(theta),xlim=xlim,ylim=ylim,type="l")
abline(h = 1/sqrt(2))
abline(v = 1/sqrt(2))
abline(0,1)


  • 楕円を構成する独立な確率分布
    • 上述の\chi^2_{sum}= x^2(1 + (2\cos(\frac{\phi}{2})^2-1)\cos(2\theta))は、\theta = 0で最大値、\piで最小値をとり、最大値が2\cos^2(\frac{\phi}{2})、最小値が2\sin^2(\frac{\phi}{2})であるような三角関数である
    • このような値は、2\cos^2(\frac{\phi}{2})x^2 + 2\sin^2(\frac{\phi}{2})y^2としても計算できる
    • Rで確かめる
theta <- seq(from=0,to=1,length=100)*2*pi
x <- cos(theta)
y <- sin(theta)
v.1 <- 1 + (2*cos(phi/2)^2-1)*cos(2*theta)
v.2 <- 2*cos(phi/2)^2*x^2+2*sin(phi/2)^2*y^2

plot(v.1,v.2)

    • 2\cos^2(\frac{\phi}{2})x^2 + 2\sin^2(\frac{\phi}{2})y^2:この式は楕円の式\frac{x^2}{a^2}+\frac{y^2}{b^2} = 1; a =\frac{1}{\sqrt{2}\cos(\frac{\phi}{2})},b =\frac{1}{\sqrt{2}\sin(\frac{\phi}{2})}である
    • 1 \times x^2 + 1 \times y^2は独立な二つの統計量の和の式である。また、1\times x^2は2次元正規分布に対して自由度1のカイ自乗分布である。また、自由度1のカイ自乗分布は(\theta = 2, k= 0.5)のガンマ分布である
    • 2\cos^2(\frac{\phi}{2})x^2 + 2\sin^2(\frac{\phi}{2})y^2の第1項は1\times x^22\cos^2(\frac{\phi}{2})倍したものであるから、(\theta = 2 \times 2\cos^2(\frac{\phi}{2}),k =0.5)のガンマ分布であり、第2項も同様に(\theta = 2 \times 2\sin^2(\frac{\phi}{2}),k =0.5)のガンマ分布である
    • このことから、「相互に独立な」2つのガンマ分布の和であることが示された
  • 非独立な確率変数の和を独立なガンマ分布の和とみなす
    • 2つのガンマ分布の和の分布のパラメタは、元の2つのガンマ分布のパラメタから以下のようにして計算できることはすでに示した。
      • \theta_0 = \frac{\theta_1^2 k1 + \theta_2^2 k_2}{\theta_1 k_1 + \theta_2 k_2}:これは\theta_1,\theta_2の重み付き平均
      • k_0 = \frac{(\theta_1 k_1 + \theta_2 k_2)^2}{\theta_1^2 k_1 + \theta_2^2 k_2}
    • したがって、\theta_0 = \frac{(2\cos^2(\frac{\phi}{2}))^2 + (2\sin^2(\frac{\phi}{2}))^2}{2\cos^2(\frac{\phi}{2})+2\sin^2(\frac{\phi}{2})}=2(\cos^4(\frac{\phi}{2})+\sin^4(\frac{\phi}{2}))
    • k_0も同様に計算することができるが、和の分布の期待値は元の分布の期待値の和であり、それは2であり、また、\text{mean} = k \thetaの関係からk=\frac{2}{\theta}と計算してもよい
    • 和の分布がガンマ分布であって、そのパラメタも正しいことをRを使って確かめてみる
n.pt <- 10000

X <- matrix(rnorm(n.pt*2),ncol=2)

v1 <- c(1,0)
t <- pi/6
v2 <- c(cos(t),sin(t))

s <- X[,1]^2 + (X%*%v2)^2

theta <- 4*(cos(t/2)^4+sin(t/2)^4)
r <- rgamma(n.pt,scale = theta, shape = 2/theta)

xlim <- ylim <- range(c(s,r))
plot(sort(s),sort(r),xlim = xlim, ylim = ylim)
abline(0,1)