ぱらぱらめくる『ディープラーニングと物理学』

第1章 はじめに:機械学習と物理学

第1部 物理から見るディープラーニングの原理

  • 情報量は驚きの大きさ
  • 生起確率P(A)に対して、-\log{P(A)}を情報量とする
  • 確率変数には、\sum_{i=1}^n - P(A_i)\log{P(A_i)}の情報量が期待される(情報量の期待値、平均情報量)
  • 生起確率がn等分の場合、平均情報量は\sum_{i=1}^n -P(A_i) \log{P(A_i)} = \sum_{i=1}^n -\frac{1}{n}\log{\frac{1}{n}} = \log{n}
  • 物理の系のエントロピーはこの値
  • 物理学における情報量上の課題など。ブラックホールでは情報が失われる。パラドクス的な話は情報が出入りしていないかに着目して解消することもある
  • 最尤推定は、KLd的に、\sum p_i \frac{\log{p_i}}{\log{q_i}}を最小にするようなqを推定すること。KLdを(物理学では)相対エントロピーと呼ぶ
  • 物理と(KLdを使う)学習とは、情報でつながっているから、物理と学習もつながるのでは?
  • パターン形成が起きたとすると、それは情報を使っていたと考えるべき(自発的にパターンが生じる現象は、(多分)別の話)
  • 学習において、微分は残差、積分は特徴量。物理において、運動方程式で速さが微分、位置が積分

第2章 機械学習の一般論

  • オッカムの剃刀は物理でいうところの、「単純なモデルの追求」に相当
  • 深層学習のoverfitting回避性能のうまい説明はまだない
  • 深層学習では、データをランダムに分割することでoverfittingを避ける一助にしている
  • 情報幾何的な空間に反ド・シッター時空というものがあり、超弦理論で登場するという。

第3章 ニューラルネットワークの基礎

  • 粒子が独立ではなく関係しあっていることは、2つの粒子の座標x_1(t),x_2(t)との距離に依存した項がハミルトニアンに加わるということで、結局x_1(t)\times x_2(t)という項の係数が0ではないことを意味する
  • 学習では、何かと何かが関係しているかどうかを検出することが基本作業である。ハミルトニアンを立て、説明変数と被説明変数との積に関する項が0でない係数を持つかどうかを考える問題になる
  • 熱力学では、実現されうるすべての場合と、特定の場合との比が、生起確率となると考え、そのような分布がボルツマン分布
  • そのような設定から、誤差関数が導出できて、学習においては、その誤差関数の最小化をアルゴリズム的に実行している
  • この時に出てくる誤差関数が、シグモイド関数や、その拡張であるsoftmax関数となっている
  • ニューラルネットワークの各層では、非線形関数が適用され、出力として、統計力学的な意味での期待値が算出される
  • 逆誤差伝搬法は、誤差関数の値を小さくするための方向を算出するもの。ブラとケットが順方向・逆方向に対応する
  • ニューラルネットワークの万能近似定理。目的関数の非線形近似が得られ、中間層の数が増えれば増えるほど近似がよくなる
  • 層の追加の効果は指数関数的な近似の改善をもたらす

第4章 発展的なニューラルネットワーク

  • 畳み込みは座標非依存にする
  • 学習結果を出力するときにも、畳み込みの逆を行うことがある。転置畳み込み
  • 時系列情報処理には、前後時刻情報を入れる再帰的ネットワーク
  • 勾配爆発・勾配消失があるとネットワークがうまく機能しない。更新過程を記憶しておく仕組み、解消する仕組みの導入により回避されうる(これは量子もつれ、とか、確定による情報消失等に対応する?)
  • 注意機構という外部機構を入れることで性能が大幅に改善する場合もある(これは物理学で何に相当する?)
  • ソートアルゴリズムソリトン波は同じこと
  • 1次元セルオートマトンチューリング完全な世界が構成できる、言い換えるとコンピュータを持ちうる世界を構成できる。このことは、現代社会がコンピュータを所有している物理的世界の仕組みについて何か意味を持つのか、否か??

第5章 サンプリングの必要性と原理

  • 物理との関係が今一つはっきりしないが…
  • 量子ランダムウォークとかとマルコフ連鎖による、定常状態からのサンプリングの実現などが結びつくということだろうか
  • 次章で用いるサンプリングへの導入的な意味が強い章か?

第6章 教師なし深層学習

  • 教師データがないので、サンプリングを用いて最小化対象を計算可能にする
  • 相反する目的を持った学習同士を競わせる(GAN: Generative Adversarial Network)
  • 問題を双対に変換するのは学習でも物理でも同じ

第2部 物理学への応用と展開

第7章 物理学における逆問題

  • 直接的に測ることができない対象を知ること、結果から原因を推定すること、物理法則・支配方程式の決定、物理定数の決定など
  • ニューラルネットワーク構造になっている脳を持った人間が、自然を観測し、物理法則を見出したのだから、それよりある意味で高性能な深層学習はさらに物理法則を見出すのでは?
  • (では、そこでの数学の役割とは、何だろう?ある設定の下での規則を見出すことが数学ならば、同様に深層学習が生み出す定理とか、予想とかがあるのでは。さらに、『新しい数学』という「うまくできている人工的な仕組み~ニューラルネットワークが説明可能な仕組み~』の創出も?)
  • 大事なのは「情報」が必要だということ。物理での情報は「観察」。量子力学では、「観察」することは「系に介入」することになっている

第8章 相転移ディープラーニングで見いだせるか

第11章 量子多体系、テンソルネットワークとニューラルネットワーク

第12章 超弦理論への応用

第13章 おわりに