ryamadaの遺伝学・遺伝統計学メモ

数学・コンピュータ関連の姉妹ブログ『ryamadaのコンピュータ・数学メモ』
京都大学大学院医学研究科ゲノム医学センター統計遺伝学分野のWiki
講義・スライド
医学生物学と数学とプログラミングの三重学習を狙う学習ツール
駆け足で読む○○シリーズ
ぱらぱらめくるシリーズ
カシオの計算機
オンライン整数列大辞典

引越しました

2018/09/04に引っ越しました。
引越し後(はてなブログ)
引越し前(はてなダイアリー)

ノンパラ・ベイズ夏休み集中セミナーメモ

ノンパラメトリックベイズノンパラメトリックベイズ

９月１日
パラとノンパラの基礎概念
- 資料１『Parametric vs Nonparametric Models』
- パラは有限個パラメタ、ノンパラは無限個パラメタのモデル
- 無限個パラメタのモデルとはどういうことかをわかることが大事
- ノンパラベイズは無限個パラメタを想定しつつ、実際には無限要素を扱わないで処理する仕組み
- 関数近似、分類、クラスタリングなどに関して、パラとノンパラの違いをディスカッション
- ノンパラ関数近似であるガウシアン過程による非線形回帰をディスカッション
- ガウシアン過程回帰の補助資料
ノンパラ検定
- 資料２『Nonparametric statistics』
9月17日
チュートリアル
- まずは、5分でチュートリアルから何を読み取るかを決める
  - Non-parametric Bayesian approach (NPB)の手法としての特徴を理解し
  - 基本的な方法例２つを学び
  - その基礎概念を数式レベルで理解する
- 次にイントロダクションを短時間でまとめる
  - NPBを使いたくなる例として、不定クラス多数のクラスタリング問題、モデルフィットとモデル複雑さ問題に言及
  - クラスタリング課題におけるNPBの特徴説明
  - いわゆるベイズ手法とNPBの違い
  - NPBを理解する２つのモデル
  - 「」
  - ２つの基本モデルを基礎にして多様なNPB手法がある
  - 本チュートリアルの構造
  - (意味の薄い)末尾文
- Mixture models and clustering
  - Finite mixture modeling
    - クラスタ数固定の下での、各クラスタの分布がパラメトライズしているときの確率密度関数と、事後分布の式について、数式ベースの記載の読み取り
  - Chinese restaurant process
    - クラスタ数を不定にするために、クラスタ数を無限大にする
    - 前項にて、クラス多数固定の場合には、クラスタ別に割り当てられる事前確率を用いていたので、クラスタ数が無限大の場合のクラスタ別事前確率が生成できれば、前の手法を拡張できる
    - クラスタ数が無限大の場合のその事前確率分布を定める、確率過程のモデルがchinese restaurant process
    - その分布を与えるにあたり、exchangeabilityという概念を用いている
  - Chinese restaurant process mixture models
    - クラスタ数は無限だが、有限サンプルに観測されるクラス多数はサンプル数で頭打ちされており、その頭打ちされたクラスタ数の出現確率は計算できるから、それに基づけば観測クラスタ数の事後分布も含めてベイズ推定は回る
- Latent variable model and Indian buffet process
  - 多変量解析で次元削減がしたい
  - 0,1でできた行列(列数不定)を生成する確率過程であるIndian buffet processを使うことで、削減後次元数を減らしつつ、その削減次元数を不定にしながら、説明モデルの事後分布を生成することができる

ノンパラ・ベイズ夏休み集中セミナーメモ０

ノンパラメトリックベイズノンパラメトリックベイズ

予定
- ９月１日(パラとノンパラの基礎概念。ノンパラ検定)
- ９月１７日(ノンパラ・ベイズの短いチュートリアル)
- ９月２２日(長文資料のつまみ食い。R・パイソンで遊ぶ、その１)
- ９月２４日(長文資料のつまみ食い。R・パイソンで遊ぶ、その２)
参加者
- A(統計遺伝学分野　院生): 多次元雲状データセットを説明するためのノンパラ手法を研究中
- B(外部病院研修医　医学部生時代の分野研究参加者):タイプ数不定の頻度推定〜ディリクレ過程
- C(京大病院研修医　医学部生時代の分野セミナー参加者):ビッグデータ型のメディカルサイエンスに興味がある＝探索型データマイニングとしてのノンパラベイズに親和性
- D(統計遺伝学分野ポスドク)：軌跡解析にスムージング。スムージングとしてのノンパラアプローチ
- E(近大産婦人科分野提供講義受講者): オミクスを中心にデータ解析全般に興味があり、ノンパラベイズも〜
- F(呼吸器内科院生共同学位課程院生): オミクスを含めた量的生物学・医療ビッグデータ学徒
- G(統計遺伝学分野教員): 分野のテーマ指導のためを含めた複数の理由で参加

6 General Posterior Distribution 一般化した場合ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

ぱらぱらめくるシリーズベイズ数学

Algebraic geometric transformにより、standard form(５章の形)に持ち込めることを示す
$p(w) = \sum Standard form$ となれば、５章で示したStandard formの色々な良い性質がそのまま使える(らしい)

5 Standard Posterior Distribution 事後分布が正規分布の場合ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

ぱらぱらめくるシリーズベイズ数学

モデルが真の分布を含み、推定にあたり、漸近的に正規分布を想定できる場合は簡単。ベイズ推定と最尤推定とがほぼ一致するから
真の分布は正規分布とはみなせないことも多く、その場合は、ベイズ推定のあてはまりがよくなる
$p(w) \propto exp(-n w_1^{2k_1} w_2^{2k_2} ... w_d^{2k_d})$ と一般化できる(そうだ)
この章では、この表現ができるならば、free energy, generalization lossについて有用なことが証明できることを示す
これは、ランダム標本から、その母分布を推定するにあたり、ある確率モデルが $w$ でパラメタライズされているときに、その推定にあたり、 $w$ の事後分布の形はこのような形(中心があって、 $2k_i$ 乗的に減衰するようになっていて、しかも、標本数nによって、その事後分布の集中の良さが指定できる、という式である

3 Basic Formula of Bayesian Observables 観測量のベイズにおける基礎的な式ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

ぱらぱらめくるシリーズベイズ数学

(1) 真の分布と統計モデルの関係の定義をする
(2) 観測変数のベイズ流定義とのそのnormalized version
(3) ベイズ予測のキュムラント母関数の定義
(4) ベイズ統計の基礎的な理論事項をキュムラント母関数を用いて証明する(それにより、真の分布とモデルと予測推定の数学的基礎を定める)
Model は Truthの近くをカバーするけれど、必ずしもModelにTruthが含まれるわけではない
各種エラー・ロス関数等は、最適解を基準にすると、パラメータ最適解を含まない関数になる。それがnormalized 関数。average and empirical log loss functionを考えることにより、ベイズ流観測変数とnormalized 観測変数とは単純な関係になる
キュムラント母関数を作るのだそうだ
級数展開することで、各種関数の値の近似値とその精度に関する情報が解析的に示せる

1 ベイズ統計の基礎ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

ぱらぱらめくるシリーズベイズ数学

真の分布の事前分布があって、それぞれがある観測をもたらす確率がわかっていれば、観測から真の分布の事後分布が計算できる、というのがベイズの定理
残念ながら、事前分布も正確には解らないし、観測をもたらす確率も解っていない(のでモデルを入れる)から、答えがきっちり決まらない〜 ill-posed problem
仕方がないので、方法を選んで、結果を出してみて、方法について検討する、という手順を踏んで、何かしら正しそうな推定結果に至ることになる
真の分布がわからなければ、これを頑張ってもうまく行かない様に見えるが、そうではない
いかなる真分布・統計モデル・事前分布のトリオに対しても、ある数学的な決まりがあって、それを使うと、統計モデルと事前分布のペアの取り方の適切さについて検討できる
本書はその話
Training Loss とGeneralization Loss
- 標本に事前分布とモデルとをあてはめて分布推定をしたら、その推定の良さが知りたい(は真の分布、は推定分布。
  - $T_n = -\frac{1}{n}\log{p(X_i|X^n)$ : Training Loss
  - $G_n = -\int q(x) \log{p(x|X^n) dx$ : Generalization Loss
  - $G_n-S = KL(q(x)||p(x|X^n))$ , Sは真の分布のエントロピー。Generalization Loss からエントロピーを引いたものが、真と推定とのKL divergence。Generalization Error
  - : Cross Varidation Loss (Leave-one-out type)
    - $C_n - S_n$ : Cross Validation Error
  - Widely Applicabe Information Criterion (WAIC)
    - $W_n = T_n +\frac{1}{n} \sum_{i=1}^n V_n[\log(p(X_i|w)], V_w[]$ はPosterior Variane
    - $W_n - S_n$ : WAIC error
    - $W_n$ は漸近的にCross Validation Lossに相当するという
- Errors
  - $G_n-S,C_n-S_n,W_n-S_n$ が３つのエラー
  - $S,S_n$ ともモデル事前分布によらない
  - Losses である $G_n,C_n,W_n$ よりも、エラーである $G_n-S,C_n-S_n,W_n-S_n$ の方が分散が小さいので、エラーを比較することも多い
- Marginal Likelihood or Partition Function. パラメタで表された事前分布と、パラメタによって決まる個々の変数の条件付き確率分布との積に分離する
- 条件付き独立な場合に、Cross Validation Loss ではうまく行かないことが、Widely Applicable Information Criterion(WAIC)ではうまく行くことが示せる

ryamadaの遺伝学・遺伝統計学メモ

Powered by Hatena Blog | ブログを報告する

引用をストックしました

引用するにはまずログインしてください

引用をストックできませんでした。再度お試しください

限定公開記事のため引用できません。

読者です読者をやめる読者になる読者になる