ポアソン点過程・分割・ノンパラメトリックベイズ

  • 動機
    • 色々動機はあるかもしれないが
    • 多数のもの・無限個あるかもしれないもののタイプ分けが興味の対象
    • クラスタ不定な状況でのクラスタリング
    • そのための確率モデル
    • その確率モデルの下での生起確率・事前確率・尤度・事後確率
  • モデル
    • 具体的な説明から始めよう
      • 中華料理店過程
        • 中華料理店に客が1人ずつ入ってきて着席する
        • 着席には確率的ルールがあると仮定する
        • 客は着席風景を眺め、誰も座っていないテーブルをある確率で選ぶ。その確率はすでに座っている客の数が多いほど小さくなる(\frac{\alpha}{\alpha + n}、ただしn+1-番目の客の場合)
        • 誰も座っていないテーブルに座ることはせず、誰かが座っている席に座るとしたら、座っているテーブルの人数に比例して座る(同じことだが、既に座っている人の中から等確率で1人を選んでその人と同じテーブルに座る)。その確率は、\frac{n_i}{\alpha + n}である。ただしn_iはテーブル-iの人数。
        • もちろん\frac{\alpha}{\alpha + n}+\sum_i \frac{n_i}{\alpha + n} = 1
    • ルール\frac{\alpha}{\alpha + n},\frac{n_i}{\alpha + n}を見直す
      • 壺モデル
        • \alphaは正の実数として考えているが、これを1とすると、Polya urnモデル。黒いボールが1個からスタートし、urn(壺)から取り出すにあたり、黒の場合は新しい色(タイプ)のボールと黒ボールを戻し、黒以外のボールの場合は取り出したボールと同色(同タイプ)のボールとの2個を戻すことの繰り返しをするときに壺の中のボールの色別割合が中華料理店過程と同じになる
      • :alpha自然数とすれば、壺に入れておく黒ボールの個数となる
      • 一般化を進めたPiman-Yor モデル
        • ルール\frac{\alpha}{\alpha + n},\frac{n_i}{\alpha + n}は、行動1によってタイプ数を増やし、行動1と行動2との割合を試行回数nによって次第に変化させ、タイプ数を増やさない場合に既存タイプ数を増やすにあたり、行動2に割り振られた確率を既存タイプ数別に割り振り、全体の確率を1にする式になっている
        • このルールを守りさえすれば、適当に確率モデルを作ることができる
        • \frac{\alpha + k \theta}{\alpha + n},\frac{n_i-\theta}{\alpha + n},ただしkはその時点でのタイプ数(i=1,2,...,k)という割り振りも条件を満足する。ここでは中華料理店過程に\thetaというパラメタを加えて新規タイプの発生確率を変化させている(\theta>0なら新規タイプが中華料理店過程より増えやすい)
  • 表現
    • 壺モデル・中華料理店過程・Pitman-Yorモデルは、壺やテーブル着席と言った、「具体的なイメージ」を伴った確率過程の表現
    • 「具体的なイメージ」では第i番目が加わると…という状況であり、かつそれが無限に続けられる状況である。それによって無限自然数分割を扱っている
    • それを「全体を無限に分割し続ける」という過程に置き換えたのが、Stick-breaking 過程のように、単位線分に分割点を入れていく表現。この場合は無限に分割を続けられるように、「だんだん小さな線分を作っていく」というやり方を採用している。この「だんだん小さく」という制約と関係するのが"Size-biased"という考え方。
    • また、どのように分割を作成するか、と言う点で、だんだん小さくしないやり方もある。たくさんの正の乱数を発生させ、それの和が1になるように乱数の総和で標準化する、という方法。このとき注意するべきは正の乱数の総和が発散しないような乱数発生法を採用すること。そのような発生法として、正の実数直線に正の値を取る関数を定め、その関数の値は、その点における平均生起回数を表し、その平均生起回数に応じてポアソン分布的に値が発生する、というモデルを作ることにする。場所によって平均生起回数パラメタが異なるポアソン点過程なので、inhomogeneous Poisson processと言う。これによって、この関数が「生ぜしめる分割」を定めていることになる。この点生起過程も無限に続けられる。ポアソン点過程を使いつつ、その総和によって「割合化」しているが、この割合化するところは、Dirichlet分布を作るときに多数を定めてその総和が1になるようにすることと同じなので、ポアソン・ディリクレ過程と言う(らしい)
    • もう一つ。Size-biased的にでもpoisson-dirichlet的にでもよいが、何かしらの分割をしたとしよう。無限の分割点・無限の線分長ができてしまう。それが目的だから仕方ないが、やはり無限個の要素は扱いにくい。有限個の要素であたかも無限個の要素を扱えるのが、Kingmanのpaintbox。これは単位線分を有限線分に分割し、そのうちの1つを除いたすべての有限長線分は、タイプ別の割合を表し、1つの線分は無限要素を持つ全体集合の中でSingletonになっているものたちの集合であるとする考え方。これをすることで、有限個の、有限割合を有するタイプ(そのタイプには無限個の要素が帰属する)と、無限個のタイプ(ただしすべてSingleton)とに分割することになる。そしてこの一見特殊な無限タイプへの分割が任意のExchangeable random partitionsに1対1対応することがしられている(Kingman's correspondence)ので、これも便利。1つの便利さは、有限分割して、それに応じて無限にタイプ別標本を発生させられること