Dirichlet分布(ディリクレ分布)



ディリクレ分布を数学側から調べるとなかなかわかりやすい説明に行き着かない。それは、ベータ分布の多項拡張だとか、ガンマ関数(観測事象が整数ではなくて有理数でも使える)だとかの式が出てくるからだろうか。疾患遺伝子解析を生業にしている立場からすると、まずは、観測値は整数個のアレルだけなどに限定して説明してほしいものだ。

Dirichlet分布の数式表現とかは調べるべきところへいけば必ず調べられる(このURLはわかりやすかった)ので、ここでは割愛して、意味合いを。

  • 検体のジェノタイプやアレルなどの観測数について考えているものとする。
  • ジェノタイプやアレルなどは、"11,12,22"や"11101,01010,00000,10101"などとなっていて、「これかあれか式(離散変数)」になっている。
  • 観測結果は、かならず「これかあれか」のどれかになっており、それぞれの観測数を足し合わせると検体の総数に一致する。
  • 今、観測される「あれかこれか」が
    • G=¥{g_1,g_2,...g_k¥}のように離散的で、kタイプある
  • 「あれかこれか」の集団中の分布頻度が
    • P=¥{p_1,p_2,...p_k¥}
  • 観測された人数が
    • X=¥{x_1,x_2,...x_k¥}
  • 定義より、¥Large{¥sum_{i}^{k}{p_i}=1}
  • 総検体数N=¥Large{¥sum_i^k{x_i}}
  • このとき、このような観測結果がえられた尤度は¥Large{L¥propto{¥prod_i^k{p_k^{x_k}}}}
    • 言い換えると『尤度Lはp_ix_i乗をi=1からkまで掛け合わせたものに比例する』
  • 今、「あれかこれか」の頻度分布情報と観測度数情報との関係を示すことができたが、逆に、観測度数情報から頻度情報を推定することも可能である。そのようにして、頻度情報から頻度情報を推定しなおす作業をすることもできる。そうすると、¥Large{L¥propto{¥prod_i^k{p_k^{x_k}}}}のような式で表される関係を介して「頻度情報」が更新される。こんな頻度情報を「ディリクレ分布」と称する。
  • 関連記事はこちら
  • ちなみにWikipediaの記事はこんな感じ