次に何が出る? ディリクレお話編

  • 昨日は、複数のカテゴリからなる「元集団」から有限回サンプリングしたら、k種類のカテゴリが観測された場合の話をした。
  • そのときに観測されたk種類のカテゴリだけが元集団を構成しているとみなして、元集団のカテゴリ割合をディリクレ分布として推定する場合と、観測されたk種類のカテゴリの他に、観察されていないK-k種類のカテゴリも考慮に入れて、K-k種類のカテゴリは、観測回数が0回であるとみなして、元集団のK種類の割合をディリクレ分布することを考えた。
  • そして、そのような2通りの元集団カテゴリ数に対して、推定分布(カテゴリ数がk、もしくはKと限定したうえで、その限定比率ベクトル空間全体の積分が1になるように、個々の比率ベクトルの確率密度が調整されている分布)のもとで、推定に用いた観測回数のデータが観察される確率の比を取った。
  • これは、「カテゴリ総数がkであるという仮説」と「カテゴリ総数がKであるという仮説」との「尤度比」なんじゃないだろうか
  • だとすると、今、ある観察がなされて、カテゴリ種類数がkなのか、Kなのか、わからないときには、kである事前確率Pre(k)とKである事前確率Pre(K)とがあったら、事後の確率の比は、「カテゴリ総数がkであるという仮説」と「カテゴリ総数がKであるという仮説」との「尤度比」とから計算できるから、たとえば、Pre(k)=Pre(K)のように、どっちなのか不明、という場合には、事後の確率は、先の「尤度比」そのものに応じて2つの仮説に振り分けたものと考えることとなる。
  • Kはk+1,k+2,...と複数で考えても同じことなので、「尤度比」をkを基準としたもの、と考えて、k以上のあらゆるカテゴリ数について話を広げることが可能
  • カテゴリ種類数ごとの「事後確率」が決まれば、それぞれのカテゴリ数であるという前提のもとで、「次にどのカテゴリが出るか」は決まるので
  • 結局、カテゴリ数が不明ながら、観測データを見たら、次に何のカテゴリが出るかの予測が可能になる