Part I(基礎)1統計学 ぱらぱらめくる『Algebraic statistics for computational biology』

Algebraic Statistics for Computational Biology

Algebraic Statistics for Computational Biology

  • 目次はこちら
  • いわゆる統計学の考え方と代数幾何との対応関係をDNA配列の解析を題材に追っていく
  • 「おっ」と思うような対応関係辞書が登場してくる
統計学 代数幾何学
独立 Segre variety
log-linear model toric variety
curved exponential family manifold 多様体
mixture model join of varieties
MAP estimation tropicalization
... ...
  • 1.1 離散データの統計モデル
    • 塩基配列における4塩基ATGCの構成数のような離散データがある
    • 離散的要素の生起確率をモデル(統計モデル)として与えると、データを観測する尤度関数が書ける
    • 尤度関数を最大にする生起確率を求めるのは最尤推定
    • 尤度関数の偏微分方程式を解いて最尤推定することもある
    • 尤度関数の偏微分方程式有理関数(2つの多項式関数の分数)で表せる
    • グレブナー基底を用いて、有理関数方程式を変形することもできる
    • 統計モデルというのは、「確率分布を集めたものが状態を説明する」という考え方
    • m項の状態はm次元空間におけるm個のベクトル(1,0,...),(0,1,0,...),(0,0,1,0,...),...,(0,0,...,1)が作る正単体上\Delta_{m-1}の点である
  • 代数統計モデルはd個の説明変数の(d次元)空間と状態空間(m次元空間、もしくは\Delta_{m-1}空間)とを対応付ける多項式関数と考える
  • 尤度関数は統計モデルの部品である確率密度関数のパラメタと観測値(状態空間の値)とでできている。色々なことを観測してもよいけれど、色々な側面を観測すればするだけよい、というわけではなく、これを観測しておけば尤度の計算は可能、という観測量(統計量(スカラーだったりベクトルだったり))がある(十分統計量)(2項分布をモデルとしているときに、N回中n回、成功した、ということを観測すれば、それで十分)
  • 1.2 線型モデルとトーラスモデル
    • 最尤推定をするにあたって、尤度関数が唯一の極大値を持つようなものであることは便利。そのような尤度関数の例として線型モデルとトーラスモデルとを紹介する
    • 線型モデル
      • f_i(\theta) = \sigma_{j=1}^d a_{ij}\theta_j + b_i
    • トーラスモデル=log-linear modelとも
      • \theta^{a_j} = \prod_{i=1}^d \theta_i^{a_{ij}}
        • \sum_{i=1}^d a_{i1} = \sum_{i=1}^d a_{i2} = ... \sum_{i=1}^d a_{im}
      • トーラスは「位相体のコンパクトな乗法群の直積に同型となるコンパクト群をトーラスと呼ぶことがある」(Wiki)とあるように、「トーラスは積」なので、トーラスモデルと呼ぶのか?
      • ポリトープ状の空間に最尤解を探す
      • 確率の対数が説明変数の対数に関する線形関数になる
  • 1.3 EM(Expectation-Maximization)
    • 線型モデル、トーラスモデル以外のモデルでは、最尤推定が単純な頂上探索では見つからない
    • そのような場合によく用いる方法がEM法
    • たいていの場合は極大に収束する(ときにそうならない)
    • 2種類のステップE,Mがある。それを交互に繰り返す
  • 1.4 マルコフモデル
  • 1.5 グラフィカルモデル
    • グラフィカルモデルというより、木を含めた「グラフ」上での遷移を扱うモデル、ということ(?)
    • 統計モデルをd個のパラメタ空間からm個のパラメタ空間のマップとして扱い、その上の制約の集合のこととなる
    • 離散を扱うのでグラフ上に表せる