ぱらぱらめくる『エントロピーの幾何学』

目次

まえがき

  • 指数型分布族だけでなく非指数型分布族が実用上重要な場面が出てきた。また、非指数型分布族を使ってもうまく動くモデル・アルゴリズムの整備も進んできた
  • 非指数型分布族を利用した手法を理解するために、測度論的確率論は必要。パラメトリックモデルと十分統計量もわかっておきたい
  • 指数型分布族を用いた確率モデルには情報幾何があり、そこには、二重平坦座標系がある
  • 非指数型分布族についてはこれだという幾何学は定まっていない
  • 非指数型分布族の幾何学の例として\tau-情報幾何学と称するものを紹介するのが本書の目的
  • 情報幾何学では\alpha = \pm 1というパラメタが重要で双対接続と関係する
  • その\alphaと対応するのが\tau=1,0だが、この\tauは確率分布族を決定し、エントロピーダイバージェンスも決定する

第1章 本書の構成

  • 第2章:測度論的確率論の基本、その用語の確認
  • 第3章:測度空間に平行移動を導入。\tau-アファイン構造を持たせる。非指数型分布族が扱えることが見えてくる。BodyとSoulという概念を導入
  • 第4章:平行移動導入の副作用である、測度の大きさの非保存に対して、平行移動のやり方によって座標の更新のやり方を調整するという方法を使う
  • 第5章:BodyとSoulからRealを導く「縮約」操作。Fisher計量が導かれる
  • 第6章:エントロピーを定義する。くり込みを用いて定義する。いわゆる情報幾何学ではエントロピーが指数型分布族のポテンシャル関数と密接な関係にあることにも特徴があるが、\tau-情報幾何学では、エントロピーをべき型拡張してあり、ポテンシャルとの関係が変わってくる
  • 第7・8章:具体例。q-正規分布
  • 第9章:べき型の対数関数とその性質
  • 第10章:エントロピーを共形エントロピーとしてとらえて、いわゆるエントロピーと異なる振る舞いをしているものを、扱う方法を説明する
  • 第11章:エントロピーの扱いで用いたスケール変換で用いるパラメタを座標とみなすことで、ホログラフィー原理としてとらえる
  • 第12章:一般化平均としての\tau-平均

第2章 測度と確率

  • 試行、事象、根源事象、全事象、空事象、\sigma-加法族、可測関数、確率変数、可測空間、測度、測度空間、ボレル\sigma加法族、ルベーグ測度
  • 集合があって、どのように足し合わせをするかの位相があると、可測空間。そこにここはこのくらいの重みがあるよ、という測度を入れると測度空間になる

第3章 \tau-アファイン空間~積・商・指数関数・対数関数の一般化

  • 演算の冪型拡張
    • 積は(f^{1-\tau} + g^{1-\tau} -1)^{\frac{1}{1-\tau}}
      • 普通の積は、\tau = 1の場合。極限として定義される(\frac{1}{1-\tau}があるから
    • 商(f/gに対応する商)は(f^{1-\tau} - g^{1-\tau} +1)^{\frac{1}{1-\tau}}
    • 指数関数はexp_\tau(u) = (1+(1-\tau)u)^{\frac{1}{1-\tau}}
    • 対数関数はln_\tau(x) = \frac{1}{1-\tau} (x^{1-\tau}-1)
      • 指数関数の積は1通りだが、対数関数の積は2通りの表現を持つ(が、値は同じ?)
        • ln_\tau(u_1 u_2) = u2^{1-\tan} ln_\tau(u1) + u_1^{1-\tau} ln_\tau(u2) -(1-\tau) ln_\tau(u_1) ln_\tau(u2)
        • ln_\tau(u_1 u_2) = ln_\tau(u1) + ln_\tau(u2) +(1-\tau) ln_\tau(u_1)ln_\tau(u2)
      • この非1通り性が、エントロピーの非加法性の素になる


f:id:ryamada22:20190627082848j:plain
f:id:ryamada22:20190627082855j:plain

  • \tau-アファイン構造
    • いわゆるアファイン空間は、集合にベクトルを加える操作を許して作る空間。加えるベクトルたちはいわゆるベクトル空間をなしている
    • ベクトルを加えることを平行移動と言う。平行移動した先も、元の集合の要素
    • 集合の要素にベクトルを加えることで任意の集合の要素に移動できるようにすれば、集合のすべての要素は、ある一つの要素とベクトルとの和としみなせる
    • ベクトル空間の部分空間によって移動できる要素は、元の集合の部分集合。これがアファイン部分空間
    • 平行移動(ベクトルを加える)と言ってきたが、実際には、ベクトルuによる平行移動として、冪型拡張した指数関数(exp_\tau(u))を掛ける(冪型積をとる)こととする(いかにも、「確率密度分布、指数型分布族の拡張っぽい話になってきた)
    • 平行移動した後、測度の変化が起きるが、それを座標の変化に吸収させる操作などを使う
  • 尤度関数、対数尤度関数、スコア関数(対数尤度関数の偏微分)も、冪型拡張の仕掛けで記載が可能になる
  • \tau-アファイン構造とその共役空間としてs=(1-\tau)-アファイン構造というものを定めると、両者には双対空間と言う関係が
  • この共役関係・双対関係の片方にSoul、もう片方にBodyと言う名前がついている
  • SoulとBodyとを縮約操作するとRealと言うものが現れるという

第4章 経路順序確率

  • \tau-アファイン構造では、始点と終点が決まると平行移動量が一意に決まる
  • そのベクトルに沿った経過点を経た多段階平行移動という概念もありえる
  • 確率分布を指定する座標の変換ルールとして、経路上の逐次変換が定められることが示せる

第5章 縮約と計量

  • 共役関係にあるSoulとBodyでの量を単純に掛けて、確率変数について積分すると、通常の意味でのFisher 情報量が出る
  • この演算を縮約と定義する
  • この定義によって得られるFisher計量には、ミンコフスキーの行列のように、負の対角成分が現れる

第6章 くりこみとエントロピー

  • 通常のエントロピーは負の対数尤度の期待値
  • くり込みは計算結果が無限大に発散してしまうのを防ぐ数学的な技法であり、場の量子論で使われる
  • くり込みを使って、\tau-アファイン構造でのエントロピーの発散を抑える
  • BodyとSoulとがあるので、エントロピーもそれぞれに定まる
  • ダイバージェンスもBodyとSoulとでそれぞれ定まる
  • ダイバージェンスは確率分布間の平行移動量に関する2次以上の近似誤差として表現される(分布を平行移動したらそのまま同じであってもよいはずだが、分布が形を変える。その変化量の1次の差は(多分、平行移動そのものがもたらす違いなので)分布の違いには影響せず、分布としての違いは2次以上の差となる、という話なのだろう

第7章以降、省略

ぱらぱらめくる『偶然の輝き』ブラウン運動を巡る2000年

目次

  • 第1章 偶然の中に潜む法則
  • 第2章 偶然を語る数学の始まり
  • 第3章 ブラウン運動をめぐる新たな話の始まり
  • 第4章 偶然を語る現代的枠組みの誕生
  • 第5章 ブラウン運動
  • 第6章 解析や幾何に現れる偶然性
  • 第7章 ウィナー空間上の2次形式
  • 第8章 偶然現象と非線形方程式

第1章 偶然の中に潜む法則

  • 餅屋の製造数
  • 浮遊塵
  • 水中微粒子の顕微観察
  • 賭け事・結果をあらかじめ知ることができないこと

第2章 偶然を語る数学の始まり

  • 賭け事。配分問題。不確からしさの定量問題。酔歩の確率論と平衡状態
  • 確率事象の大数の(弱)法則。その極限。正規分布中心極限定理
  • 連続関数もばらつきの対象。その極限とスムージング
  • メンデルの遺伝の法則。生物学に由来する確率論

第3章 ブラウン運動をめぐる新たな話の始まり

第4章 偶然を語る現代的枠組みの誕生

  • \sigma-加法性、可測空間、確率空間
  • 測度、ボレル、ルベーグ
  • 独立確率変数の無限列
  • 定義の難しさと複雑さ
  • 確率計算とフィボナッチ数列(漸化式で表される確率事象)
  • 確率事象列、その極限、可測関数の確率による積分
  • d次元酔歩と出発点に戻る確率
  • 級数の収束・発散で確率事象も解析する
  • 方程式の解の一意性とある偶然事象の生起確率が1であることは同等
  • 確率変数の素性を知るためにモーメント列を使う
  • モンテカルロ実験

第5章 ブラウン運動

  • 無限次元である連続関数の空間上の確率測度として微粒子運動を捉える
  • ブラウン運動に対応する測度 ウィナー測度
  • 概収束
  • 級数展開、ウェーブレット展開
  • 物理現象と同様に経済現象も
  • 軌跡としてのブラウン運動から固有値・固有関数、固有値の漸近状態へ
  • ランダムに動き回る分子の動きから容器に関する情報を引き出す話(境界問題はその一つ)

第6章 解析や幾何に現れる偶然性

  • 偶然な現象と確率事象とは重なるけれど同じではない
  • マルコフ連鎖(無記憶過程)
  • 微分できない場でも積分
  • 伊藤の公式
  • 幾何、リーマン計量、等温座標系が取れる

第7章 ウィナー空間上の二次形式

第8章 偶然現象と非線形方程式

  • 遺伝現象(遺伝子伝搬現象)という分枝過程を記述すると非線形確率方程式
  • 水面波、ソリトン解も非線形確率方程式(らしい)

ぱらぱらめくる『Free Probability and Random Matrices』

Lectures on the Combinatorics of Free Probability (London Mathematical Society Lecture Note Series)

Lectures on the Combinatorics of Free Probability (London Mathematical Society Lecture Note Series)

(PDF)]

Asymptotic Freeness of Gaussian Random Matrices

  • 確率測度
    • 空集合に対して0を返し、全体集合に対して1を返すもの。ある特定値t付近の微小集合のそれは(d \nu (t))と書き、それは、いわゆる「確率密度分布の関数の値」に相当し、\int_{t \in \Omega} d\nu(t) =1であるし、\int_{t_1}^{t_2} d\nu(t)はt1-t2区間の「確率」。この確率測度\nuの期待値は\int_\Omega t d \nu(t)と書けるし、n次モーメントは\int_\Omega t^n d \nu(t)と書ける
  • 特性関数
    • \psi(t) = \int e^{ist} d \nu(s); i = \sqrt{-1} : 変数sが作っている集合上の確率測度\nuについて、tに関する複素関数を定義して、それを変数sの集合で積分したものとする。これは確率測度 \nu(s)が定めるtの関数で、特性関数と呼ぶ
    • t=0のとき\psi(t=0) = \int e^{is \times 0} \nu(s) = \int 1 \times \nu(s) = 1であるから、この連続関数は、0の前後で正の値を取る
    • このtの複素関数は0周りで冪級数展開ができて\psi(t) = \sum_{n \ge 0} \alpha_n \frac{(it)^n}{n!};\alpha_n = i^{-n} \psi^{(n)}(t=0)となる。\alpha_nはn次モーメント
  • キュムラント母関数。特性関数の対数を取る。特性関数は0周りで正なので対数が取れる。\log{\psi(t)} = \sum_{n=1}^m k_n \frac{(it)^n}{n! }+ o(t^m); k_n = i^{-n} \frac{d^n}{dt^n} \log{\psi(t)}|_{t=0}。この係数k_n\nuの(古典的な確率論での)キュムラント
  • モーメントとキュムラントの間には、相互に変換関係が存在する
    • \alpha_n= \sum_{1\cdot r_1 + ...+n \cdot r_n=n;r1...r_n\ge 0} \frac{n!}{(1!)^{r_1}...(n!)^{r_n} r_1!...r_n! } k_1^{r_1}...k_n^{r_n}
    • k_n = \sum_{1\cdot r_1 + ...+n \cdot r_n=n;r1...r_n\ge 0} \frac{(-1)^{r_1+...+r_n-1}(r_1+...+r_n-1)! n!}{(1!)^{r_1}...(n!)^{r_n}r_1!...r_n!}\alpha_1^{r_1}...\alpha_n^{r_n}
  • 一次元標準正規確率変数には特徴がある
    • 一次モーメントは0、二次モーメントは1
    • a_{2n} = (2n-1)!! = (2n-1)(2n-3)...5\cdot 3 \cdot 1a_{2n-1} = 0
    • この(2n-1)!!という値は、\{1,2,...,2n-1,2n\}という集合を2つずつのペアに分ける場合の数になっている
      • そのことは、2n個から、1番を取り出し、その相手方の選び方2n-1通りを考え、残りの2(n-1)個のペアの作り方の場合分けに相当することから|P_2(2n)| = (2n-1)\times |P_2(2(n-2))|=(2n-1)!!という漸化式から示せる
      • ここに、1次元標準正規分布のモーメントが、整数分割・組み合わせと結びついていることが示された
  • 正規分布のモーメント・キュムラントと組み合わせとの関係の導入に引き続き、一般化が以下のようになされる
    • 多次元正規確率変数~正規変数ベクトル
      • いわゆる多変量正規分布。期待値が期待ベクトルになる。それを制御するのが分散共分散行列だったりする。exp^{-t^2}t^2のところも、行列を使って内積を定義することによって、確率変数を行列が支配する色が見えてくる
      • \frac{1}{(2\pi)^{n/2} det(B)^{-1/2}} exp(-(Bt)^T t/2)なる式表記が出るが、これは、原点を中心とした多変量正規分布の分散共分散行列\Sigmaを使った式\frac{1}{(2\pi)^{n/2} det(C)^{1/2}} exp(-t^T C^{-1} t/2)と同じこと
    • 標準複素正規確率変数
      • 2つの独立な実正規乱数X,Yを使ってZ=\frac{X + i Y}{\sqrt{2}}とした確率変数が、標準複素正規確率変数
      • 期待値・平均は、X,Yともに0なので、Zのそれも0+i0
      • 分散はE(Z \bar{Z}) = \frac{1}{2}E(X^2+Y^2)=1となっている
      • さらにE(Z^m \bar{Z}^n) =0 (m \ne n), m! (m=n)
      • Rで確かめておく

    • ランダムな正規行列(GUE: Gaussian Unitary Ensemble)
      • 行列の各成分f_{ij}が複素生起乱数であって、その平均は0、分散E(|f_{ij}|^2)=1/Nのもの
      • f_{ij} = \bar{f_{ji}}と、共役転置でもある
      • 共役転置という制約はあるが、それ以外は、行列の成分の実部・虚部の値は(正規分布制約の下で)独立
      • 対角成分の虚部は0なので、都合、\frac{N(N-1)}{2} + N=N^2個の正規乱数によって行列が決まる。このN^2個の乱数を長さN^2の乱数ベクトルと見ると、多次元正規確率変数と同様の捉え方も可能となる。
      • この長さN^2の正規乱数ベクトルは、N個の平均0、分散1/Nの正規乱数と、N(N-1)/2*2個の平均0、分散1/2Nの正規乱数になっており
      • N^2個の変数同士の共分散は0である
      • したがって、この分散共分散行列の逆行列(対角成分が(N,N,...,2N,2N,...)であって、非対角成分が0の行列)によって指定されるN^2次元正規分布に従う正規変数ベクトルによって定まるランダム行列であることがわかる
      • また、正規変数ベクトルの場合に分散共分散行列が全体を決めていたが、行列の場合には、変数行列の二乗行列のトレースにその性質が備わっているという
      • 具体的には、NxN正規行列は、それを規定する行列B(対角成分が(N,N,...,2N,2N,...)であって、非対角成分が0の行列)を用いて、長さN^2のベクトルとで(Bt)^T tなる内積が決まる。この内積の値は、XをNxN行列として扱ってX^2を計算したときのトレースと比例関係にある
      • したがって\frac{1}{(2\pi)^{n/2} det(B)^{-1/2}} exp(-(Bt)^T t/2)\frac{1}{(2\pi)^{n/2}det(B)^{-1/2}}exp(-Tr(X^2)/2)と行列の二乗のトレースで置き換えて表現できることがわかる
      • Rで確認しておく

      • このあたりの、「行列のべき乗のトレース」を問題にするあたりが、*-代数を使った代数的確率論で、行列を確率変数と見たときの、スペクトルに行列のべき乗のトレースを云々、という話につながる
      • また、隣接行列のk乗の対角成分はk歩でのサイクルの歩き方の場合の数になることなどとも関係してくる。場合の数は、A->Bの歩き方の場合の数と、B->Cの歩き方の場合の数との積がA->B->Cの歩き方の場合の数になったりするから、ペアを作って、それらの積を取る、という処理が歩き方の場合の数の数え上げと関係する
      • 隣接行列と異なるのは、隣接行列の場合には、エッジがあれば1、なければ0というような成分値であるのに対して、正規行列では、平均0、分散1(ないしは1/N,1/2N)というように、「確率変数」になっていること。したがって、「歩き方の場合の数」も数え上げる対象ではなく、「期待値」として取り扱う対象になっていること
  • なお、特性関数・その係数としてのモーメント、キュムラント母関数・その係数としてのキュムラントの間に、組み合わせ関係・組み合わせを用いた分解公式がある(Cumulants_and_moments)があり、また、高階微分組み合わせ論との関係にはWick's theoremというものがあり、量子力学で役割を果たすが、そのことについても、この章では触れられている
    • 多変量正規分布からのn次元乱数があるとする
    • n個から偶数k個を選び出し、k個の変数の値の積の期待値を考える
    • 今、k個(偶数)をk/2ペアに分けるわけ方すべてを列挙する。こうすると、変数ペアごとに、ペア変数の積の期待値ができる。分け方ごとに、この期待値の積を取り、その積を分け方すべてについて足し合わせる。そうすると、k個の変数の積の期待値になると言う
    • Rでやってみる(こちらに、ペア悉皆列挙のやり方を別途、メモ)

The Free Central Limit Theorem and Free Cumulants

  • この先は、ちょっと今の自分には無理。数学的に正しいことが整然と書かれているのはその通りなようだけれど、そのような構成がどういう『意味』を持っているかについての気持ちがついていかないと、「そー、それで」感に押し流される…
  • 何かあるのだろう。正規分布のモーメントが、整数のペアリングと関係しており、ペアリングには、なんでも蟻のペアリングのnoncrossing partitions的なペアリングとがあり、その両者を区別することと、その区別に対応する、確率事象・統計モデルとの区別があるのだろうと思う
  • ここまで書くと、「なんでもかんでも自由に組み合わせたり順列できたりする」か、何かしら制約のある中(Noncrossingがその制約)での自由な組み合わせ・順列の場合とで確率変数のモーメントが変わってくる→分布が異なる→「なんでも自由~正規乱数的」と言っても、制約依存だ、とそういう話、なのだろうと想像される
  • それよりは、整数列の分割がトポロジー的な意味づけができることの方が、幾何には近そうな感じ。特に、曲面の幾何・・・

Free Harmonic Analysis

Asymptotic Freeness for Gaussian, Wigner, and Unitary Random Matrices

Fluctuations and Second Order Freeness

Free Group Factors and Freeness

Free Entropy \chi : The Microstates Approach via Large Deviations

Free Entropy \chi^* : The on-microstates Approach via Free Fisher Information

Operator-Valued Probability Theory and Block Random Matrices

Deterministic Equivalents, Polynomials in Free Variables, and Analytic Theory of Operator-Valued Convolution

Brown Measure

複体と代数的確率変数

  • この文書(non-commutative probability theory for topological data analysis)をぱらぱらめくっている
  • こちらで、グラフのスペクトル解析と代数的確率論についてメモした
  • この文書は、、もう少し踏み込んで、単体的複体、その先にあるトポロジカルデータアナリシスにまで代数的確率論を進めている
  • ものすごく大雑把に言うと
    • 行列は確率変数
    • この代数的確率変数には、古典的な変数の独立とは異なる独立の概念がある
    • 行列はグラフでもある
    • グラフは分解・合成ができる
    • グラフの分解・合成には、グラフとしての「独立」があり、この「グラフとしての独立性が、行列としての独立性としてどう現れるのか」と言う話と、「確率変数としての独立性が、確率変数を表している行列にどのように現れるのか」とが繋がってくる
    • グラフの分解・合成には、グラフスペクトル解析の流れのなかで、隣接行列・ラプラシアン・Normal行列の分解・合成ルールとして議論される
    • その先に、「単体的複体」ー「代数的確率」ー「分解・合成」ー「独立」の議論が出てくる模様で、どのように独立で、どのように独立でないか、が、「単体的複体」のトポロジカル解析に結びつく、と言うこと(らしい)
    • グラフでは、隣接行列とそのべき乗が、何歩で生き合えるかの情報を表す。特に、対角成分を考えるとそれはサイクルに関すること。この行列のべき乗が代数的確率論ではモーメント。ラプラシアンの場合は、木の情報
    • 単体的複体になると、「サイクル」の代わりに、k-次単体となる。グラフにおける、クリーク
    • ポセットに話を持っていくと、ベッチ数を係数とした式、オイラー標数とかになってくる
    • 単体の頂点、エッジ、faces、高次facesを行・列に対応づけて、その帰属関係に向きも考慮して±1を立てると、単体的複体を表す行列ができる
    • 単体的複体はそれをさらに進めることでやはり行列ができる
    • 単体のオーバーラップ関係が、そこに行列演算の分離・分解・ルールなどを用いたものとして表現される
    • Betti number, Betti curve, Betti forestとか、そんな具合に広がる模様