2021-05-14

ぱらぱらめくる『Algebraic Statistics in Practice: Applications to Networks』

ぱらぱらめくるシリーズ代数統計ネットワーク系統樹因果関係

arxiv.org

このペイパーでは
- Algebraic が：algebras, geometry, combinatorics　を指し、それらを使う統計手法を扱う
- Networksは：３つの例を扱う。Relational models, Causal structure discovery, Phylogenetics
- Applications として：Statistical achievements, Practical relevance の側面に焦点を当てる
1 Introduction
- 代数統計学の背景
  - 最小二乗法に基づく統計手法は、非常に広く用いられているが、それは連立線形方程式に基づく手法。これも「線形代数手法」と言えば、言える
  - 非線形な代数がそれに対比される形で現れた。対称性とか実験計画法とかを指す(？）。これらは「代数統計手法」とも言える
  - 指数型分布族に基づく手法もあり、これは凸性という幾何学的特徴に強く依存している。凸制約のある状況での関数・微分などに基づくものなので、そのような関数の代数を考えれば、代数統計ではあるが、『代数統計』と言うときには、解析的関数の代数以外を指して言うことが多いので、以下が対象となる
  - これらを経て、(計算能力の向上ともあいまって)登場しているのが、「(本ペイパーで扱う)代数統計手法」
- ３つのネットワークの特徴づけ
  - Relational models
    - 多要素の関係の有無・強さが観測される。その観測が、特定のネットワークモデルを設定し、それと合致するかどうかを検定する
  - Causal structure discovery
    - ネットワークは与えられるのではなく、データから見つけ出したい。「ネットワークとは要素と要素とのつながり～エッジである」とみなせば、このアプローチでは、頂点についての観測がなされ、それに基づきエッジのセット(とその重み)を見つけ出すことに相当する
  - Phylogenetics
    - これもグラフを見つけだす問題だが、見つけるべきグラフは木であって、その木のノードには、「観測対象である葉ノード」と「観測されない節・根ノード」とがあるという特徴がある
2 Relational models
- このモデルでは、ノード数が固定されたグラフのうち、特定の指標のセットが条件を満足するグラフをランダムに発生させる「ランダムグラフ」によって、「条件付きグラフ集合分布」を作成する。このためには「ランダムグラフ」の作り方を定める必要になる。その作り方も色々ある
- このペイパーでは、指数型分布族表現を持つランダムグラフモデルである"exponential family models of random graphs"に基づいて話を進めている
- exponential... とは、グラフを特徴づけるベクトル(十分統計量のセット)と、そのベクトルの要素ワイズの重みとの内積の指数関数に比例する確率を用いる。ここで要素ワイズの重みが分布の「θ座標」になる
- 検定には２種ある
  - Heuristic tests
    - 生成グラフ分布における観測グラフの外れの程度を定量する方法だが、外れの程度を測る指標の分布の素性が不明であるし、ネットワークの特徴ベクトルの選び方がarbitraryであるという問題がある
  - Asymptotic tests
    - ランダムであることにiidを仮定することが漸近近似では要求されるが、エッジのありなし・重みは、相互に独立にはできないので、そぐわない
    - 限定的なネットワーク形状・モデルでは漸近近似ができる統計量が知られていたりするが、一般化はできていない。特に疎グラフに合致しない(らしい)
- p個のノードにk変数のペアワイズ関連・遠近観測を行うと、 $p \times p \times i_1 \times ... \times i_k$ なる多元表になる。この多元表のセルは「ノードペア」の情報
- この多元表が求めるexponential random graph modelを表していると考えると、log-linear-ERGMになると言う
- 頂点次数を保存してグラフを改変する動きを、頂点ペア～辺の組(それを積にする)の加算・減算で表して、「代数化」する
3 Causal structure discovery
- DAG (Directed Acyclic Graph)。そのノードは観測される変数
- DAGの構造に応じて、変数の値の取り方に確率モデルを入れる。最も単純には変数間の関係に線形式を、乱雑項に正規乱数を取る
- 条件付き依存度 Conditional Independence (CI)に基づく変数(ノード)間の関係を導く。CI relationは、DAGの部品のようなものなので、それを組み合わせて、作りうるDAGはたくさんある。その際に用いられるのがMarkov property。そこからDAGを導く
- 完全グラフからスタートしてCIによりグラフを成型する。そのときにルールが必要で、そのルールがfaithfulであることを保証するのが実代数幾何の等式・不等式。その意味で「代数統計」
- Permutohedron とか Associohedronとかが出てくる
4 Phylogenetics
- 隠れたノードを含めて木のトポロジーの全体
- それらが、塩基の入れ替わりという「計算～代数」で繋がっている
- 尤度平面のglobal optimumや特異点についての情報を取り出すのにcomputational algebraが用いられる
- "Maximum likelihood estimation in statistics leads to the problem of maximizing a product of powers of polynomials.こちらのペイパーより" というような話と関係する
- データに基づいて、「よさそうな木トポロジー」を見つけたい