ノンパラ・ベイズ夏休み集中セミナーメモ - ryamadaの遺伝学・遺伝統計学メモ

９月１日
パラとノンパラの基礎概念
- 資料１『Parametric vs Nonparametric Models』
- パラは有限個パラメタ、ノンパラは無限個パラメタのモデル
- 無限個パラメタのモデルとはどういうことかをわかることが大事
- ノンパラベイズは無限個パラメタを想定しつつ、実際には無限要素を扱わないで処理する仕組み
- 関数近似、分類、クラスタリングなどに関して、パラとノンパラの違いをディスカッション
- ノンパラ関数近似であるガウシアン過程による非線形回帰をディスカッション
- ガウシアン過程回帰の補助資料
ノンパラ検定
- 資料２『Nonparametric statistics』
9月17日
チュートリアル
- まずは、5分でチュートリアルから何を読み取るかを決める
  - Non-parametric Bayesian approach (NPB)の手法としての特徴を理解し
  - 基本的な方法例２つを学び
  - その基礎概念を数式レベルで理解する
- 次にイントロダクションを短時間でまとめる
  - NPBを使いたくなる例として、不定クラス多数のクラスタリング問題、モデルフィットとモデル複雑さ問題に言及
  - クラスタリング課題におけるNPBの特徴説明
  - いわゆるベイズ手法とNPBの違い
  - NPBを理解する２つのモデル
  - 「」
  - ２つの基本モデルを基礎にして多様なNPB手法がある
  - 本チュートリアルの構造
  - (意味の薄い)末尾文
- Mixture models and clustering
  - Finite mixture modeling
    - クラスタ数固定の下での、各クラスタの分布がパラメトライズしているときの確率密度関数と、事後分布の式について、数式ベースの記載の読み取り
  - Chinese restaurant process
    - クラスタ数を不定にするために、クラスタ数を無限大にする
    - 前項にて、クラス多数固定の場合には、クラスタ別に割り当てられる事前確率を用いていたので、クラスタ数が無限大の場合のクラスタ別事前確率が生成できれば、前の手法を拡張できる
    - クラスタ数が無限大の場合のその事前確率分布を定める、確率過程のモデルがchinese restaurant process
    - その分布を与えるにあたり、exchangeabilityという概念を用いている
  - Chinese restaurant process mixture models
    - クラスタ数は無限だが、有限サンプルに観測されるクラス多数はサンプル数で頭打ちされており、その頭打ちされたクラスタ数の出現確率は計算できるから、それに基づけば観測クラスタ数の事後分布も含めてベイズ推定は回る
- Latent variable model and Indian buffet process
  - 多変量解析で次元削減がしたい
  - 0,1でできた行列(列数不定)を生成する確率過程であるIndian buffet processを使うことで、削減後次元数を減らしつつ、その削減次元数を不定にしながら、説明モデルの事後分布を生成することができる