メモ

  • ごちゃごちゃと考えたときのメモ
    • 普通のポアソン分布は非負整数を台としてその上に非負実数を配するルールをパラメタ依存に定める。そういう意味で、パラメトリックな確率分布とは、「ある台」に総和(全体の積分)が1になるような確率質量・密度を定めるルールをパラメタ依存に持っているような「確率質量・密度分布というインスタンスの集合」を定めるもの。パラメタの値を特定すれば、それはあるパラメトリックな確率分布の集合の要素を指定することになる。このようにある台の上に確率質量・密度分布を特定するlaw(決まりごと・関数)をdistributionという
    • 二項分布は、サンプル数N(と生起確率(p,1-p)と)を定めることで分布インスタンスを特定する。そういう意味で「N個サンプリングする」というときのNもパラメタのひとつ
    • では、Poisson-Dirichlet Distributionsはどうなるのか?
      • 台はexchangeable partitionsである。ある自然数(非負整数)n個を取り出したとして、そのタイプごとの内訳が\sum_{j=1}^n j m_j =nとなるような(m_1,...,m_n)となるという事象全体がexchangeable partitions
      • 標本を無限にとってもよいが、有限個をサンプルすることもあって、それは二項分布のNが分布インスタンスを特定するのに必要なのと同様
    • 節4まででExchangeable partitionsについて説明を加えてきたが、それはPoisson-Dirichlet distributionsの台を説明するためだったことがわかる
    • ではPoisson-Dirichlet Distributionsの名前の由来は何だろうか?(これは(今のところ)想像)
      • 自然数の分割だけれど、それを割合的に捉え、総数がNのところを総数が1にしている点でDirichlet
      • また、自然数の分割であって、その総数が無限大まで広がっていることから、離散確率分布でもある。離散確率分布と言えばポアソン分布があり、そういう意味でPoissonという単語が使われるし、個々のタイプに観測される個数・回数がポアソン分布で説明することも多いという意味でPoissonという単語を使っているのであろうか
    • さて。どういうDistributionsがあるだろうか
      • 同一の分布(たとえば正規分布)でもいくつかの異なる表式がある(平均と分散を用いたパラメタ表現や指数型分属表現や…)し
      • 異なる分布と言えるが台は同じ分布もある(ポアソン分布が負の二項分布の特殊形であるというような関係も含めて)しするので
      • いろいろな、分布集合を表すルール(law)があり、それぞれをPoisson-Dirichlet distributionと呼び、別名をつけたりする。また、それぞれがパラメタで表現されていればパラメトリックな分布と言えるだろう
    • ではこの節は、上記のような意味での「いろいろなPoisson-Dirichlet distributionS」をどのように説明しているか、と言うと…
    • s-Paintbox
      • 降順に実数列を作りその和が1未満となるようにする。1未満の総和の最後の残りをSingletons用とする
      • これにより一意に定まった実数列が得られる
      • ここに(0,1)の数値を発生(乱数を発生させればExchangeable "random" partitionsが得られる)させ、Singletons用の場所ならシングルトンラベルを、そうでなければ、対応セグメントのラベルをつける。これにより任意の自然数個の要素がラベル付けされる
      • これを基本的なラベル付け手順とする
    • s-Paitboxなラベル付け手順のもとではどのように降順実数列(足して1未満)を発生させるかの規則(law)がs-Paintboxの作られ方を決める(それがとりもなおさずdxchangeable partitionsを生む)ので、降順実数列生成lawが(Poisson-Dirichlet) distributionを表す
      • Ewens distribution P(\Pi_n=\{b_1,b_2,...,b_k\}) = \frac{\theta^k}{\theta(\theta+1)...(\theta+n-1)}\prod_{j=1}^k(b_j-1)! は、あるnに対し、(b_1,...)ごとに、\theta依存な確率質量分布が得られた。したがって、取りうるすべての(b_1,...)を台(Exchangeable partitions全体の一部)とした離散確率質量分布を定めるlawとしてのdistributionがEwens distributionであるということになる。このとき\thetaが単一のパラメタなので\thetaをパラメタとするPoisson-Dirichlet distributionと呼ばれることもある
    • ディリクレ・多項分布の次元を無限大にしたときの分割がEwens's sampling formula
  • 5. Two-paramter Ewens-Pitam Distributionとしての考え方