• 一番小さいp値
    • n回の独立検定を考える
    • その最小p値の分布を考える
    • ある値xより小さいp値が出ない確率は(1-x)^n
    • 今、十分に小さいxを考えるとき、e^{-x}=1-x+\frac{x^2}{2!}-\frac{x^3}{3!}...の1次の近似e^{-x}=1-xを用いて、(e^{-x})^n=e^{-nx}となる
    • 一方、ある確率変数yがf(y)=e^{-y}に従うとき、y=(\frac{x}{b})^aなる関係にある変数xは、f(x)=\frac{a}{b}(\frac{x}{b})^{a-1}e^{-(\frac{x}{b})^a}なる分布をとることが知られている
      • これは、指数分布f(y)=e^{-y}をべき乗変換したと言えて、指数関数の一般化したものと考えることができる
      • また、この分布をワイブル分布と言う
  • (e^{-x})^n=e^{-nx}から、a=1,b=\frac{1}{n}が得られるから、近似e^{-x}=1-xを仮定する限りにおいて、独立なn検定の最小p値の分布はf(x)=nx^0e^{-nx}=ne^{-nx}なる指数分布に従うことがわかる
  • それをRで確かめる
n<-100
niter<-1000
m<-matrix(runif(n*niter),niter,n)
minp<-apply(m,1,min)
MINP<-rexp(niter,n)
plot(sort(minp),ylim=c(0,max(minp)))
par(new=TRUE)
plot(sort(MINP),ylim=c(0,max(minp)),type="l",col="red")
hist(minp)
  • これは、n個の部品があって、それが直列に並んでいて、1個でも故障したら全体が故障するようなシステムにおいて、個々の部品の故障確率がxであるようなときの、システム全体の故障確率の密度はne^{-nx}で近似できることを示している
  • ワイブル分布を導くにあたっては、こちらによれば、近似e^{-x}=1-xを利用した上で、極値分布を援用するらしい
  • このことを、ポアソン配置から考えてみる
    • 今、何かしらの空間があるとする
    • ポアソン配置とは、空間中にランダムに点を配置することである
    • 今、単位体積あたりにhなる濃度で分布するとする
    • ここで、体積vには平均してvh個の点がある
    • ポアソン配置なので、体積vの領域にある点の数kポアソン分布に従うとみなすことができて、P(k|v,h)=\frac{(vh)^k}{k!}e^{-k}で表わされる
    • ここまでの話では、この空間がどういう空間なのかを定義していない。定義したのは、「体積」があることだけである
    • 1次元ユークリッド空間ならば、直線、2次元なら平面、3次元なら空間、4次元なら。。。と広げられる
    • ユークリッド空間に限る必要もない
    • ここで、ある変数、tを用いて、体積がv=f(t)と表わされる形があるとする(ただし、f(t)=b \times t^kと表わされるようなものを考える。
      • 1次元ユークリッド空間で、形として線分を考えれば、「体積」は長さで、y=tである
      • 2次元ユークリッド空間で、形として円を考えれば、「体積」は、y=2\pi t^2である
      • n次元空間の超球を考えればv=\frac{\pi^{\frac{n}{2}}}{\Gamma(\frac{n}{2}+1)}t^k
      • n次元立方体ならv=t^k
    • さて、どのような形にしろ、ある点を中心にtによりだんだん大きくなるような形を考える。そのような形について、tになって、初めて、点が内部に認められる
    • この確率は、\frac{k}{\beta}(\frac{t}{\beta})^{k-1} e^{-(\frac{t}{\beta})^k}, \beta=(\frac{1}{b})^{\frac{1}{k}で与えられることが示せる(e^{-s}=1-s+\frac{s^2}{2!}-\frac{s^3}{3!}...の2次以上の項を無視する近似を使う)
    • これはワイブル分布と呼ばれる形
    • (多次元)球を考えると、これは、配置されたある点から、別の最も近い点(最近接点)への距離の分布について考えることとなっている
    • さて、話しを、最小p値に戻す
      • 最小p値を考えるにあたって、n個の独立な検定は、原点を始点とするn本の直線と考えることができる
      • xより小さいp値が配置される体積は、直線1本あたりの単位体積(長さ)のn本分(n倍)なので、v=n tと表わされる
      • ここから、今日の記事の前半で道いびいたne^{-nx}が導かれる
    • 多分、大丈夫な展開・・・