2項分布とベータ分布、生起確率と尤度



  • 2項分布
    • Aかaかのどちらか片方が確率P(A)、P(a)(p=(P(A),P(a));P(A)+P(a)=1)で起きるとする。このような事象がN回、独立に起きるときに、Aがn(A)回、aがN(a)回(n=(N(A),N(a));N(A)+N(a)=N)、起きる確率(Pr(n=(N(A),N(a));p=(P(A),P(a)));2項確率)は次の式で与えられる
      • Pr(n;p)=_{N}C_{N(A)} P(A)^{N(A)}¥times P(a)^{N(a)}
        • ¥sum{i=0}^{N}Pr(n=(i,N-i);p)=1を満たしている。
      • AがN(A)回おきるのでP(A)^{N(A)}、同様にaがN(a)でP(a)^{N(a)}。これに、N回のうちN(A)回とN(a)回とへの振り分けパターンの項 _{N}C_{N(A)} = _{N}C_{N(a)} = ¥frac{N!}{N(A)!¥times N(a)!}をかけている。
    • この式には階乗(n!=1¥times 2 ¥times ... ¥times n)が用いられている。これは離散関数であるが、これを連続関数で表すこととする。階乗の定義を実数域に拡張したガンマ関数(¥Gamma(x))を用いて表す。
      • n!=¥Gamma(n+1)=¥int_{0}^{¥infty}t^{n}e^{-t}dt
    • ガンマ関数を用いて、2項確率Pr(n;p)の式を書き直すと
      • Pr(n;p)=¥frac{¥Gamma(N+1)}{¥Gamma(N(A)+1)¥times ¥Gamma(N(a)+1)} P(A)^{N(A)}¥times P(a)^{N(a)}
    • ガンマ関数を分子分母に3つ使っている項は定型的なので、これを表したベータ関数(B(a,b))を用いる。
      • B(a,b)=¥int_{0}^{1}t^{a-1}¥times (1-t)^{b-1}dt=¥frac{¥Gamma(a)¥times ¥Gamma(b)}{¥Gamma(a+b)}
        • (n-1)!=¥Gamma(n)を思い出せば、B(a,b)=¥frac{(a-1)!¥times(b-1)!}{(a+b-1)!}であるから
        • B(a+1,b+1)=¥frac{¥Gamma(a+1)¥times ¥Gamma(b+1)}{¥Gamma(a+b+2)} =¥frac{a!¥times b!}{(a+b+1)!}=¥frac{a! ¥times b!}{(a+b)! ¥times (a+b+1)}
        • もう1段、変形して、B(a+1,b+1) ¥times (a+b+1) = ¥frac{a!¥times b!}{(a+b)!}
        • したがって、Pr(n;p)=¥frac{1}{N+1}¥times ¥frac{1}{B(N(A)+1,N(a)+1)}P(A)^{N(A)}¥times P(a)^{N(a)}->こちらも参考に
      • 2項分布が、試行N回の観測事象回数(n=(N(A),N(a)))と事象確率(p=(P(A),P(a)))と、それに基づくベータ関数で表された。
        • もちろん¥sum_{i=0}^{N}Pr(n=(i,N-i);p)=¥sum_{i=0}^{N}¥frac{1}{N+1}¥times ¥frac{1}{B(i+1,N-i+1)}P(A)^{i}¥times P(a)^{N-i}=1を満足している。これは、ある確率分布p=(P(A),P(a))で起きる事象について、N回の独立事象を観測したときの観測度数の確率分布である。
  • ベータ分布
    • このような形を持ち、連続関数であり、かつ、確率密度分布となっているものに、ベータ分布がある。
      • f(q,(1-q),x,y)=¥frac{1}{B(x,y)}q^{x-1}¥times (1-q)^{y-1}
        • ¥int_{0}^{1}f(q,(1-q),x,y)dq=1
      • この式を、2項確率の方式で表すと、p=(P(A),P(a))=(q,1-q)n=(N(A),N(a))=(x-1,y-1)の対応関係があるから、
        • f(P(A),P(a),N(A)+1,N(a)+1)=¥frac{1}{B(N(A)+1,N(a)+1)}P(A)^{N(A)}¥times P(a)^{N(a)}
        • これは書き換えて、f(p;n’=(N(A),N(a)))=(N(A)+N(a))¥times Pr(n’;p)
          • 確率密度分布としての性格(pの分布について積分すると1になる)ということは、あるn’が与えられたときに、それに対応したpの確率密度分布となっていることを意味する。これは、観測データn’における、事象の生起確率の尤度の分布に対応している。
  • 2項分布とベータ分布との関係
    • Pr(n;p)=¥frac{1}{N+1}¥times ¥frac{1}{B(N(A)+1,N(a)+1)}P(A)^{N(A)}¥times P(a)^{N(a)}
      • ¥sum_{i=0}^{N}Pr(n=(i,N-i);p)=¥sum_{i=0}^{N}¥frac{1}{N+1}¥times ¥frac{1}{B(i+1,N-i+1)}P(A)^{i}¥times P(a)^{N-i}=1
    • f(P(A),P(a),N(A)+1,N(a)+1)=¥frac{1}{B(N(A)+1,N(a)+1)}P(A)^{N(A)}¥times P(a)^{N(a)}
      • ¥int_{0}^{1}f(q,(1-q),x,y)dq=1
    • 2項分布は、事象の生起確率がわかっているときに観測データが得られる確率を与え、ベータ分布は観測データが与えられたときにその事象の生起確率の尤度分布を与えている。前者は、事象の生起確率が与えられたときに、観測データが取りうる範囲(離散空間)について積分して、その総和が1となっていることに対応しているのに対し、後者は、観測データが与えられたときに、事象の生起確率について積分して、その総和が1となっていることに対応している。
    • 前者では事象の生起確率の観測度数乗およびベータ関数に、N(観測事象の総回数)に応じた数(N+1)に関する項があるのに対して、後者には、その項はない。これは、後者が 0 ¥le p ¥le 1という長さ1の範囲での積分であるのに対して、前者は0 ¥le i ¥le Nという長さN+1の離散点に渡る積分であることに由来する項である。
    • 観測データを基に生起確率密度分布を推定し、生起確率密度分布から観測事象を発生させ、また生起確率密度分布を推定して・・・という手順を取るにあたり、ベータ分布を事前を事前確率とした場合、2項分布で発生する事象について、事後確率もベータ分布となる。このような関係にあるとき、ベータ分布を2項分布の共役事前分布と呼ぶ。確率密度分布とその共役事前分布との関係には、2項分布<-ベータ分布のほかに、多項分布<-ディリクレ分布、ポワッソン分布<-ガンマ分布などがある。