偏微分(駆け足で読む統計学のための数学入門30講 25 26)


微分は1変数において定義されている。偏微分はその多変数への拡張である。1変数における「意味」を「2次元空間上への関数のプロットとその傾きと面積」とすれば、『n多変数への拡張』とは「n+1次元空間への関数のプロットとその減次元空間における傾きとk>=3次元体積」である。

  • 偏微分関数は¥frac{¥partial z}{¥partial x}, ¥frac{¥partial f}{¥partial x}(x,y), f_x{x,y), fxなどと書く
  • p個の多変数による累積分布関数(同時累積分布関数)がF(¥bf{x}), ¥bf{x}=¥{x_1,x_2,¥cdots,x_p}とあらわされ、¥bf{x}のすべての要素について偏微分可能であれば、その同時確率密度関数f(¥bf{x})=¥frac{¥partial^p F}{¥prod_{i=1}^{p}¥partial x_i}(¥bf{x)となる
  • この同時確率密度関数の対数をとると、対数尤度関数となり、それを、変数で偏微分の値がゼロとしたp個の方程式が対数尤度方程式であり、それらを満足する変数の値のセットが対数尤度関数の極大(小)値を与えることから、最尤推定はこのp次対数尤度方程式を解くことからも求められる。ただし、1変数の場合に対数尤度方程式を解くことは、極大値か極小値のいずれかを求めることであったが、多変数の場合には、『すべての変数について極大』であるか『すべての変数について極小』である場合には、多変数関数として『極大(もしくは)極小』となるものの、『一部の変数で極大、一部の変数で極小』であるとき、それは、『鞍点(峠みたいなところ)』であって、極大でも極小でもない(極値の判定については、後述)
  • 合成関数の微分。1次関数とその微分で成立した合成関数の微分y=f{z},z=f(x),¥frac{dy}{dx}=¥frac{dy}{dz}¥frac{dz}{dz}=f’(z)g’(x)が多次元関数とその偏微分でも成り立つ。合成関数x=¥phi(¥bf{w}),y=¥psi(¥bf{w}),z=f(x,y)=f(¥phi(¥bf{w}),¥bf(¥psi(¥bf{w}))につき、¥frac{¥partial f}{¥partial w_i}(x,y)=¥frac{¥partial f}{¥partial w_i}(¥phi(¥bf{w}),¥psi(¥bf{w}))=¥frac{¥partial f}{¥partial x}(x,y)¥frac{¥partial ¥phi}{¥partial w_i}(¥bf{w})+¥frac{¥partial f}{¥partial y}(x,y)¥frac{¥partial ¥phi}{¥partial w_i}(¥bf{w})
  • 1次関数で成り立ったテイラーの公式も同様に多次元関数でも成り立つ。ただし、n次微分の項の数は、変数の組み合わせを考慮する必要がある(x,yの2変数のときの2次の項は¥frac{¥partial^2}{¥partial x^2},¥frac{¥partial^2}{¥partial y^2},¥frac{¥partial^2}{¥partial x ¥partial y}の3通りである)
    • 多変数のテイラーの公式は、偏微分を成分とする行列である「ヘッセ行列」を用いて次のように表せる(2変数の場合を示す)
      • f(x,y)=f(a,b)+(f_x(a,b),f_y(a,b))¥begin{pmatrix}x-a¥¥y-b¥end{pmatrix} + ¥frac{1}{2}(x-a,y-b)¥begin{pmatrix}f_{xx}(a,b)&f_{xy}(a,b)¥¥f_{xy}(a,b)&f_{yy}(a,b)¥end{pmatrix}¥begin{pmatrix}x-a¥¥y-b¥end{pmatrix} + R_3(x,y),ただしR_3(x,y)は3次以上の剰余項。¥begin{pmatrix}f_{xx}(a,b)&f_{xy}(a,b)¥¥f_{xy}(a,b)&f_{yy}(a,b)¥end{pmatrix}をヘッセ行列と言う
  • 極値の判定
    • ヘッセ行列の固有値がすべて負なら(a,b)で極大
    • ヘッセ行列の固有値がすべて正なら(a,b)で極小
    • ヘッセ行列の固有値が正負混在なら(a,b)で鞍点
  • 多変量解析にて回帰式の係数を求めることは、係数を変数としてその最小値を求めることであり、偏微分してゼロと置いた方程式を解き、それが極小になっていることを確認する

ベクトル微分と条件付き極値問題(駆け足で読む統計学のための数学入門30講 27)


偏微分は多変数にて個別に偏微分をし、また高次の偏微分は変数の順列・組み合わせで偏微分をする。その表記は煩雑になるが、多変数をベクトルとして、また、多変数の組み合わせを行列にて表現することで簡素な表現で済む。微分線形代数の記法を取り込んだのがベクトル微分である

2変数にてイメージをつかみ高次元について理解する。

今、z=f(x,y)なる関数がある。これは、x-y平面上の点に対して、z値を与え、それが3次元空間に広がる面を表している。今、この3次元空間中の面の極値とは、x-y平面に対して、z軸方向に値が増えもせず減りもしない点である。今、この面上に線を引き、その線における極値を考える。例として、山を表す面があるとする。この極大値は「頂上」である。この山を表す面に頂上を囲むかたちで円を引いたとする。これは3次元空間中の線を表す。この線にも高低の値(z軸方向の値)があるので、線上の極値は存在する。しかしながら、その極値は面の極値(「頂上」)とは異なり、方向を変えると明らかに勾配がある(山の頂上を左手に見ながら山麓をぐるっと一周する道において、たしかに上り詰める点はあるが、そこも山の斜面を横切っているという喩えでよいだろう)。このように面上に引かれた線の極値を考えるのが、「条件付き極値問題」である。このことは、尤度関数で言えば、条件付き確率の最尤推定値を求めることに相当する。3次元空間中の線の極値においては、その微小局所にてz軸方向の値が増えもせず減りもしない。先ほどの山麓の道のたとえで言うと、z軸方向の増減がないのはある向きにおいてのみであり、それ以外の向きにおいては、z軸方向の増減は存在している。それはどういう場合かと言うと、面の傾きが線の向きに対して直行している場合である。面の傾きは「方向」と「勾配」とで決まるが、「方向」は¥frac{¥partial f}{¥partial x}(x,y)¥frac{¥partial f}{¥partial y}(x,y)との比で決まる。今、「線」を関数で表すとg(x,y)=0となるとする。これは、z=g(x,y)のx-y平面との交線に相当する。「山麓の道」はこの交線のz=f(x,y)平面への射影である。z=g(x,y)面にも面の傾きがあり、両面の傾きの向きが一致することが「山麓の道の方向と斜面の傾きが直行する」ことを意味する(若干飛躍があるが)ので¥frac{¥frac{¥partial f}{¥partial x}(x,y)}{¥frac{¥partial f}{¥partial y}(x,y)}=¥frac{¥frac{¥partial g}{¥partial x}(x,y)}{¥frac{¥partial g}{¥partial y}(x,y)}

このことから、f(x,y)についてg(x,y)=0の条件のもとでの極値を解くことは¥frac{¥partial f}{¥partial x}(a,b)-¥lambda¥frac{¥partial g}{¥partial x}(a,b)=0, ¥frac{¥partial f}{¥partial y}(a,b)-¥lambda¥frac{¥partial g}{¥partial y}(a,b)=0¥lambda ¥not =0なる¥lambdaについて解くことに相当し、この¥lambdaラグランジュ乗数と呼び、これを解くことは、行列の固有値固有ベクトルを求めることに一致している。

重積分(駆け足で読む統計学のための数学入門30講 28 29)

  • 第28講 重積分
  • 第29講 重積分での変数変換


最尤推定における微分の役割が多変数にしたときの偏微分の役割であることを、第25 26 27講で見たが、確率密度関数の面積を求める作業(=積分)が多変数化して重積分となり、面積が体積(3次元の場合。4次元以上の場合も高次元体積とする)に代わる。基本的な積分の技法が重積分に拡張されるのは、微分から偏微分への拡張の場合と同様である

平均ベクトル(駆け足で読む統計学のための数学入門30講 30)

  • 第30講 平均ベクトルと分散共分散行列



統計学では多変量を扱い、それぞれの期待値やそれらが作る分散・共分散を扱い、それらをベクトル表現・行列表現することが便利である。この章では、統計多変量をベクトルでそれらが作る組み合わせ(「共」)を行列で表すのに、偏微分・重積分線形代数の表記法でまかなえることを示す。また、より統計学の色彩濃く、観測量と推定量などを含めて表現している。詳細は省略する