ぱらぱらめくる『Algebraic Statistics, Graduate Studies in Mathematics 194』

bookstore.ams.org

  • 目次を眺めるとかなりのことがわかる

Chapter 1 Introduction (Discrete Markov Chain)

  • 大事なのは、次の対応を理解すること
確率・統計 代数・幾何
確率分布
統計モデル (Semi)Algebraic set
離散指数型分布族 トーリック多様体
Conditional Inference Lattice points in polytopes
最尤推定 Polynomial optimization
モデル選択 Geometry of singularities
多変量ガウス分布モデル Spectrahedral geometry
系統樹モデル テンソルネットワーク
MAP estimates トロピカル幾何
    • 確率分布 は 点
      • 特定の確率質量分布・確率密度分布は情報幾何的に点である。それと同じこと
    • 統計モデル は (Semi)-algebraic set
      • 例えばm変数の同時分布(全変数が{0,1}を取るような場合には、2^mの場合がある)。そこに、X_iの値が、X_{i-1}にのみ依存し、X_{j},j < i-1には依存しないというようなモデル(Markov chain model)を考えると、そのモデルには、2^mの場合の確率質量の間に等式(と不等式)が成立することが示せる。これが「モデル」を定めることで「式表現~algebraic」のセットを満足する点の集合が対象になる、という風に言い換えられる
    • 離散指数型分布族 は トーリック多様体
      • トーリック多様体は「強凸有理多面錐(cone)の集まりである扇(fan)(Wikipedia)

トーリック多様体 - Wikipedia

      • まったくわからないが・・・、多分、離散の場合は、有限個の連立線形不等式になっており、それがトーリック多様体だ、、、ということなのではないか
    • 最尤推定 は Polynomial optimization
      • Markov chain modelでは、P(X_i=x_i | X_{i-1} = x_{i-1}が重要になるが、この(1つ前の変数に条件づいた、条件付確率を、代数式の変数とすれば、確率は多項式になる。したがって、「確率~尤度」の最大化は多項式の最適化と同じ
      • しかも、最適化は(偏)微分して0が最尤解。これが連立有理式になり、それが解けることもあるが、解けない場合もある
      • "Amazingly a complete, beautiful, yet still mysterious classification of models with rational formulas for maximum likelihood estimates exists and has ermarkable connections to other areas in algebraic geometry" ... Chapter 7
      • Real Algebraic Varietyというのは、連立実等式のセット。Semi-real... は連立実等式と連立実不等式のセット・・・多面体になる
    • MAP estimates とトロピカル幾何・トロピカル代数
      • MAP 推定の中に、言語処理分野(音声を聞いて文字列に直す、とか)がある。その処理では、音素を辺にし、音素列をパスにしたようなグラフを構成し、ある音素列が与えられたときに、合致することを「適切なパス」の存在に対応付ける。そして、その「パスを選ぶ」ことが「対応する文字列」の出力に対応するように作ってある。例えば、"akada"という音素列(アルファベットが音素であるとする)に対して、a-k-a-d-aというパスが存在し、そのパスを通ったら「赤だ」という出力がなされるようなグラフのこと。実際には、同じ音素列を聞いても、どんな文字列が適切かは「選」ばないといけないが、その「選ぶ基準がMAP = Maximum a posteriori esimation」。これは、「最適パス」探索なのだが、この方法の良いところは、WFSTという仕組みがあって、音素列・文字列が長くなっても、グラフ自体を操作して簡約化できたりすることがある。また、このグラフ上で最適パスを見つけるアルゴリズム「Viterbi ビタビ」がある。ただし、ビタビアルゴリズムは優秀な動的計画法アルゴリズムだが、言語処理分野は巨大な探索空間を相手にするので、もっと効率化する必要がある。その効率化に現れるのが、ビタビの「尤度・確率」計算のトロピカル演算化である。トロピカル演算の軽さと、トロピカル演算の最適化問題が探索しやすいこととが、その「キモ」らしい
      • WFSTについてはこちら
      • ビタビとそのトロピカル演算についてはこちら
    • ちなみに、トロピカル化は量子力学古典力学的に引き戻す作用も持っている。量子力学では状態が複素関数であるところ、それを古典(実関数であり、理想気体のように要素間独立性が仮定できたり、絶対零度のような極限状態などへの近似を含む)にすることで、複素数に特有な「位相」を吹き飛ばすことができる。その位相を吹き飛ばす関数として、\log{複素数} = \log{|z|} + i \log{\theta}のような対数関数が活躍する。トロピカル化では、対数化関数が使われるが、それはそういう話。また、量子力学的な状態を「複素・代数的トーラス」がたくさん集まったもの(かけ合わせて作った、複素高次元トーラス)と見たときに、トロピカル化は、それを実高次元空間に移す関数として働く。また、機械学習の文脈では、(制限)ボルツマンマシンは学習を熱力学的に扱う仕組みだが、そこでもトロピカル化が使われるのは、熱力学~量子力学~そのトロピカル化による古典力学化と言う関係から理解することができる。また、トロピカル化によって、実格子とその上の凸包・整数問題化がなされることともつながる。その点でRBM(制限付きボルツマンマシン)とMAP推定との両方にトロピカル化が出てくることは、納得がいく・・・Geometry in the tropical limit参考ペイパー(Restricted Boltzmann Machine)

Chapter 2 Probability Primer (確率とは、ランダム変数とは…)

Chapter 3 Algebra Primer (代数多様体イデアルグレブナー基底、Computational Algebra、射影空間・射影幾何)

Chapter 4 Conditional Independence (CI) (CI models、Primary Decomposition)

Chapter 5 Statistics Primer (統計モデル、データの型、パラメタ推定・仮説検定・ベイズ統計)

Chapter 6 指数型(分布)族 (Exponential families、実代数幾何、代数的指数型(分布)族)

  • いわゆる指数型分布族表現を離散確率変数に用いる
  • 確率モデルは(r-1)-正単体内部に相当するとみることもできるが、指数型分布族にすると、(r-1)-次元実空間全体と見える
  • この空間が確率モデルの族であり、その点が特定の確率モデル
  • 確率モデルにおける、観測データの尤度は、離散型確率変数の場合、有理多項式になる。分母は確率質量の総和が1であるとの制約を満足するための式に相当する
  • 今、この分母の存在を射影幾何的に考えると、分子は斉次座標系のようなものになる
  • この分子の式は、変数の(非負)整数乗の掛け合わせになっており、「単項式」。すべての変数を等倍しても、同じモデルを表しているが、その特徴は、単項式イデアル。トーリックイデアルは、単項式の差によって構成されるイデアルのこと
    • ここで「単項式のセット」→「トーリックイデアル
    • この取り出しにおいて、「十分統計量が等しくなるような、2つの単項式の引き算に相当する式(単項式の差の式)」がトーリックイデアルを生成するという意味で、「統計」が「トーリックイデアル代数学」とつながる・・・ここに2x2小行列式が登場したりもする
  • トーリックイデアルグレブナー基底を与えると「よいこと」があり、代数アプリで実装されている

Chapter 7 Likelihood inference (スコア等式の代数的解法、尤度の幾何、凸尤度関数、尤度比検定)

Chapter 8 The Cone of Sufficient Statistics (多面体)

Chapter 9 Fisher's exact test (条件付き推定、マルコフ基底、Graver基底、格子酔歩とPrimary decomposition、サンプリング)

Chapter 10 Bounds on Cell Entries (Integer Programming、グレブナー基底、Quotient Ring、Linear programming relaxation)

Chapter 11 Exponential Random Graph Models

Chapter 12 Design of Experiments (Computations with the Ideal of Points、グレブナー扇)

Chapter 13 Graphical Models (CI Description of Graphical Models)

Chapter 14 Hidden Variables (EMアルゴリズム)

Chapter 15 Phylogenetic Models (木と分岐)

Chapter 16 Identifiability

Chapter 17 Model Selection and Bayesian Integrals (Bayesian integrals and sngularitiyes、Information criteria)

Chapter 18 MAP Estimation and Parametric Inference (HMM、Normal Fans、Polytope algebra・Polytope propagation)

Chapter 19 Finite Metric Spaces (Metric Space、Cut polytope、トーリック多様体)