助走(駆け足で読むために) Bayesisn Graphical Models for Discret



  • 伴走資料はこちら
  • イントロダクション
    • 離散的データ
      • 観測現象は、カテゴリカルに記録される。たとえば現象Aを観測すると、複数のカテゴリがあって、そのいずれかである。A=¥{a_1,a_2,...,a_{na}¥}
    • ベイズ
      • A=¥{a_1,a_2,...,a_{na}¥}を観測したらa_{i}だった。そのあとAに影響されるB=¥{b_1,b_2,...,b_{nb}¥}を観測したらb_{j}だった。そのあとBに影響されるC=¥{c_1,c_2,...,c_{nc}¥}を観測したらc_{k}だった。
      • ABとの間には関係があり、その関係は、a_{i}が観測されたときにb_{j}が観測される確率として知られる。また、BCとの間も同様である。
      • XYとの関係は、nx ¥times ny個の条件付き確率P_{X ¥to Y} = (p_{ij}), i=1,2,...,nx; j=1,2,...,ny, ¥sum_{j=1}^{ny}p_{ij}=1i=1,2,...,nxにて成り立っている。ただし、p_{ij}は、x_iのときに、y_jが起きる確率である。
    • マルコフ連鎖
      • Bの影響を受けてCが起きるとき、Aの影響は受けないものとする。これはマルコフ連鎖の無記憶性(直前の影響しか受けない)ことに相当する。
    • Log linear model
      • 分割表検定では、Peasonのカイ自乗統計量から独立性の検定をする場合と、対立仮説と帰無仮説とに対応する対数尤度から求められる値を用いて尤度比検定をする場合があったことを思い出す。
      • 対数尤度の算出は、分割表のセルに対応する観測確率の対数を線形に足し合わせる(Log & Linear)。
      • したがって、離散的データが作る分割表が関わる事前・事後確率は分割表検定のLog linear modelの枠組みで考えることとなる。
      • Hierarchical log linear model
        • 多変数のlog linear modelにおいては、n個の変数について、1変数ずつn個、2変数ずつn(n-1)/2個、3変数ずつn(n-1)(n-2)/(3*2)個というように、組み合わせる変数の数について階層的に作成する。この階層的な組み合わせ項の組み込みが、Hierarchicalである。
        • 全ての組み合わせについて考慮するとき、それはSaturated modelと呼ばれる。
    • 2項分布とベータ分布、多項分布とディリクレ分布
      • 2項分布と多項分布は、カテゴリカルデータの尤度を与える分布である。
        • ln(L)=¥sum_{i=1}^{N}N_i¥times ln(p_i)
      • ベータ分布とディリクレ分布は、カテゴリカルデータの事前確率・事後確率の分布として用いられる分布であり、それぞれ2項分布、多項分布に対応する。
      • 2項分布とベータ分布はカテゴリ数2の場合、多項分布とディリクレ分布はカテゴリ数2以上の一般化した場合に対応する。
      • 2項分布-ベータ分布の関係、多項分布-ディリクレ分布の関係は、「ベータ分布が2項分布の」、「ディリクレ分布が多項分布の」『共役事前分布』である、という関係である。
        • 共役事前分布のベイズにおける意味合い
          • 事前分布、事後分布を計算するときには、観測度数と事前確率とから尤度計算を行う。
          • 離散的データの場合には、この尤度計算において、上述の通り、2項分布・多項分布を用いる。
          • 事前分布を用いて事後分布を求め、事後分布を事前分布としてさらに事後分布を計算する場合には、事前分布と事後分布の関数が同形式で表されていることが望ましい。
          • この事前・事後での関数形式の変わらない分布を『共役事前分布』と呼び、これは、尤度計算に用いるときの分布(離散的データの場合には、2項分布・多項分布)に応じて決まってくる。
      • ベータ分布の一般化拡張がディリクレ分布であることは、こちらの記事で。
  • Graphモデル
    • 離散的データがあり、その変数を点で、2つの変数の間の関係を辺で表すと、グラフになる。Saturated hierarchicalモデルでは、すべての2点間に辺を引くことになり、完全グラフとなるが、ある正当な理由から、相互に独立であるとみなされる変数の間には辺を引かないこととすると、グラフは完全グラフではなくなる。
    • 事前・事後の関係は、辺の向きで表される。
    • 有向グラフにおける、点の相互で独立関係の把握は難しく、無向グラフとして扱えるとグラフ処理的に簡単になる。この独立・非独立の関係を有向辺ではなく、無向辺で表す方便が、モラルグラフである。
    • グラフの分解
      • 上述した、変数のグラフモデルは複雑である。
      • グラフの中で、木の構造は、解析しやすいので、複雑なグラフをおおまかに見て、木とみなせるかどうかは、1つの大きな考え方である。これを『木表現を持つグラフ』とも呼ぶ。その説明サイトはこちら
        • 木構造の中でも、さらに単純なのは、分岐のない木である。
      • 木表現を持つグラフでは、グラフの部分(部分グラフ)を1つの点とみなすことで、複雑な部分を省略する。
        • この結果、省略された、木構造と、省略された複数の部分グラフに分解して解釈することができるようになる。
      • 木表現を持つグラフの定義・表現のために、いくつかの用語・定義が存在する。
        • 弦グラフ(chordal graph)
        • 弦グラフの木表現の一つにクリーク木と呼ばれるものがある。これは、木表現の点に相当する部分グラフがすべてクリークであるようなものである。
          • ただし、クリークとは、構成点間のすべての点の間に辺を持つような部分グラフのことである。
        • 木表現を持つグラフにおいて、部分グラフに対応する点(相当のもの)と点との間に辺があり、その場合には、両点に対応する部分グラフが共有する点(元のグラフの点)が存在する。この共有点を1をSeparatorと呼ぶこともある。
        • ベイズのグラフモデルでは、クリーク木化したときに、クリーク木表現に分岐がないものを想定する(すくなくとも、本記事の伴走文献においては)
    • グラフ全体の確率密度計算
      • 有向グラフで表すか、無向グラフで表すか
        • 対象次第
      • 有向グラフの場合
        • 各変数(点)について、その点のグラフ上の関係情報と、その点にとっての親点確率とから、その点の確率を出す。
        • グラフ全体の確率は、前文で述べた方法で計算した各点の確率の積。
      • 無向グラフの場合
        • グラフはクリークに分けられており、そのクリークは枝のない木(1本道)上に連なっており、隣合うクリーク同士には、Separatorが存在している。
        • グラフ全体の確率は、すべてのクリークの確率の積をSeparatorの確率の積で除したものになる(クリークの積によって、Separatorに含まれる点の確率が2回掛け合わされるから)
        • 個々のクリークの確率は、そのクリークが取りうるすべての状態についてのDirichlet分布となっており、さらに、クリークを構成する点が取りうるすべての状態についてのDirichlet分布の積となる
        • ただし、Separatorに含まれる点の確率分布は、2つのクリークにおいて同一の値をとらせる制約が入り、この制約つきのDirichlet分布は、"hyper-Dirichlet"と記されている。