極限・関数の大小比較とランダウの記法(駆け足で読む統計学のための数学入門30講 4)

  • 第4講 極限



関数はf(x)x¥to aにてある値¥alphaに収束する、もしくは、¥pm ¥inftyに発散するとき、次のように書く

¥lim_{x¥to a}f(x)=¥alpha,¥pm ¥infty

  • ポアソン分布は2項分布の生起確率Pをゼロに限りなく近づけたものに相当している
    • 2項分布は、ある事象が起きる確率Pと起きない確率1-Pであるときに、総計N回の観測で、k回起きる確率を与える分布である
      • P_r(x=k)=_n¥mathrm{C}_kP^k(1-P)^{n-k}
      • この式では、N回試行してk回起きる確率が求められている。言い換えると試行回数を指定して、起きる回数も指定することでその確率が求められている
    • ポアソン分布は2項分布の極限
      • 今、Pが非常に小さい事象を考える。非常に小さいのでこれくらい(たとえば1万回に1回くらい)なことはわかっているが、実際に何回試行するかは未定だとする。そのような場合にも、極限をとることで、事象がk回起きる確率が計算できる。それは、生起確率が非常に小さいので、実際にN回試行するとしようとN'回試行すると仮定しようと、N¥to ¥infty回試行すると仮定した場合とみなせるような状況だから、である(多分。)
      • 実際に2項分布の極限をとってみる
        • 非常に小さい生起確率¥lambda=¥frac{m}{n}とすると、n回の試行においてk回起きる確率は
          • P_r(x=k)=_n¥mathrm{C}_kP^k(1-P)^{n-k}=_n¥mathrm{C}_k(¥frac{m}{n})^k(1-¥frac{m}{n})^{n-k}
          • 今、n¥to ¥inftyとすると¥lin_{n¥to ¥infty}P_r(x=k)=¥frac{¥lambda^k}{k!}e^{-¥lambda}と式変形できて、これは、k回起きる確率が¥lambda(1万回に1回くらい稀な事象、というときの¥frac{1}{10000}とkのみによって決まることがわかる
  • アルゴリズムA1とアルゴリズムA2とがあって、いずれも、入力データサイズが大きくなれば大きくなるほど計算量は増える。したがって、いずれのアルゴリズムの計算量も発散する。しかしながら、アルゴリズムの計算量は、その発散の速さの多寡で比較する。そのときに用いるのが、ランダウO表記である
    • 今、ある関数f(x)g(x)x¥to ¥inftyにおいてともに¥inftyに発散するとする。そうは言っても、その発散の速度には違いが存在しえて、(1)¥lim_{x¥to ¥infty}¥frac{f(x)}{g(x)}=0の場合と、(2)¥lim_{x¥to ¥infty}¥frac{f(x)}{g(x)}=C,Cは定数の場合と、(3)それよりも大(xに関する増大関数)の場合とである。(1)の場合、g(x)f(x)より高位の無限大(より速く発散する)ことを示し、(2)の場合、f(x)g(x)と同位の無限大(同じくらいの速度で発散する)ことが示されている。(3)の場合にはf(x)g(x)より高位の無限大(より速く発散する)ことが示されている。(1)のとき、g(x)=o(f(x))と書いて、g(x)f(x)のスモールオーダーになっていると言う。(2)の場合には、g(x)=O(f(x))と書いて、ラージオーダーになっていると言う。(2)のようなとき、g(x)の計算量はたかだかf(x)のそれであることが示される。アルゴリズムAの計算量はO(N¥log N)である、などと用いる

微分・極大(駆け足で読む統計学のための数学入門30講 5 6)


なめらかな関数の傾き

f’(x)=0は傾きゼロの位置→極大・極小点

確率密度関数は、関数によって囲まれる面積(積分値)が1である関数であり、その最大値を与える点が最尤推定量となる。したがって、確率密度関数の最大値を与える点か、その微分関数をゼロとする点かを探索する。最尤推定量を与える点を見出す方法には、尤度比検定・スコア検定・ワルド検定がある。

  • 確率密度関数についてはこちら
  • 尤度比検定・スコア検定・ワルド検定についてはこちらこちら
  • f(x)=0の解を求めるにあたり、f’(x),f’’(x)を用いて、解への収束を目指す方法をニュートン法という
  • 相関プロットの回帰直線を求める方法に最小二乗法がある。これは、回帰直線とプロットとの距離の和Sを回帰直線の傾きbの関数とみなし、S=¥sum_{i=1}^n(y_i-bx_i)^2と表す。Sが最小となる点では、¥frac{dS}{db}=0となるようなbを求める方法である

(x^z)’=ax^{a-1}

(e^x)’=e^x

(a^x)’=a^x¥log a

(log|x|)’=¥frac{1}{x}

(¥sin x)’=¥cos x

(¥cos x)’=¥sin x

(¥tan x)’=¥frac{1}{¥cos^2 x}

(¥sin^{-1}x)’=¥frac{1}{¥sqrt{1-x^2}}

(¥cos^{-1}x)’=¥frac{-1}{¥sqrt{1-x^2}}

(¥tan^{-1}x)’=¥frac{1}{1+x^2}


[tex:(x^z)'=ax^{a-1}]
[tex:(e^x)'=e^x]
[tex:(a^x)'=a^x\log a]
[tex:(log|x|)'=\frac{1}{x}]
[tex:(\sin x)'=\cos x]
[tex:(\cos x)'=\sin x]
[tex:(\tan x)'=\frac{1}{\cos^2 x}]
[tex:(\sin^{-1}x)'=\frac{1}{\sqrt{1-x^2}}]
[tex:(\cos^{-1}x)'=\frac{-1}{\sqrt{1-x^2}}]
[tex:(\tan^{-1}x)'=\frac{1}{1+x^2}]

高校数学の復習(駆け足で読む統計学のための数学入門30講 1)

  • 第1講 基礎事項とア・ラ・カルト




[tex:ax^2+bx+c=0]
[tex:\Large x=\frac{-b\pm\sqrt{b^2-4ac}}{2a}]
[tex:D=b^2-4ac]

  • 平方完成
    • 二次式を「なんとかの二乗」「足す」「なんとか」、にすること
    • ¥Large a(x-A)^2+b(x-B)^2=(a+b)(x-C)^2+¥frac{ab}{a+b}(A-B)^2ただし¥Large C=¥frac{aA+bB}{a+b}
      • そのテキスト表記

[tex:\Large a(x-A)^2+b(x-B)^2=(a+b)(x-C)^2+\frac{ab}{a+b}(A-B)^2]
[tex:\Large C=\frac{aA+bB}{a+b}]

  • 複素数
    • i=¥sqrt{-1}(i^2=-1)
    • 複素数a+biと表し、aを実部、bを虚部と呼ぶ
    • ¥alpha=a-bi¥overline{¥alpha}=a+bi の共役複素数と呼び、
      • ¥alpha が実数ならは、¥alpha = ¥overline{¥alpha}
      • ¥overline{¥alpha¥pm¥beta}=¥overline{¥alpha}¥pm¥overline{¥beta}
      • ¥overline{¥alpha¥beta}=¥overline{¥alpha}¥overline{¥beta}
      • ¥Large ¥overline{¥bigl(¥frac{¥alpha}{¥beta}¥bigr)}=¥frac{¥overline{¥alpha}}{¥overline{¥beta}}, (¥beta¥not=0)
      • ¥alpha¥overline{¥alpha}=a^2+b^2
      • そのテキスト表記

    • [tex:i=\sqrt{-1}(i^2=-1)]
    • 複素数は[tex:a+bi]と表し、[tex:a]を実部、[tex:b]を虚部と呼ぶ
    • [tex:\alpha=a-bi] は [tex:\overline{\alpha}=a+bi] の共役複素数と呼び、
      • [tex:\alpha] が実数ならは、[tex:\alpha = \overline{\alpha}]
      • [tex:\overline{\alpha\pm\beta}=\overline{\alpha}\pm\overline{\beta}]
      • [tex:\overline{\alpha\beta}=\overline{\alpha}\overline{\beta}]
      • [tex:\Large \overline{\bigl(\frac{\alpha}{\beta}\bigr)}=\frac{\overline{\alpha}}{\overline{\beta}}], [tex:(\beta\not=0)]
      • [tex:\alpha\overline{\alpha}=a^2+b^2]

  • 指数と対数
    • 指数関数 y=a^x (a>0,a¥not=1)は単調増加関数で¥lim_{x¥to-¥infty}e^x=0, ¥lim_{x¥to¥infty}e^x=¥infty
    • 対数関数 y=¥log_axは単調増加関数で¥lim_{x¥to0}¥log{x}=-¥infty, ¥lim_{x¥to¥infty}¥log{x}=¥infty
    • 対数
      • a>0,a¥not=1,b>0,b¥not=1,M>0,N>0として
        • ¥log_a{a}=1
        • ¥log_a{1}=0
        • M=a^{¥log_a{M}}
        • ¥log_a{MN}=¥log_aM+¥log_zN
        • ¥log_a{¥frac{M}{N}}=¥log_aM-¥log_aN
        • ¥log_a{M^t}=t¥log_aM
        • ¥log_aM=¥frac{¥log_bM}{¥log_ba}
    • そのテキスト表記

    • 指数関数 [tex:y=a^x (a>0,a\not=1)]は単調増加関数で[tex:\lim_{x\to-\infty}e^x=0], [tex:\lim_{x\to\infty}e^x=\infty]
    • 対数関数 [tex:y=\log_ax]は単調増加関数で[tex:\lim_{x\to0}\log{x}=-\infty], [tex:\lim_{x\to\infty}\log{x}=\infty]
    • 対数
      • [tex:a>0,a\not=1,b>0,b\not=1,M>0,N>0]として
        • [tex:\log_a{a}=1]
        • [tex:\log_a{1}=0]
        • [tex:M=a^{\log_a{M}}]
        • [tex:\log_a{MN}=\log_aM+\log_zN]
        • [tex:\log_a{\frac{M}{N}}=\log_aM-\log_aN]
        • [tex:\log_a{M^t}=t\log_aM]
        • [tex:\log_aM=\frac{\log_bM}{\log_ba}]

  • 集合
    • q(x)なる性質を満たすxの集まりをAとしたとき
    • A=¥{x|q(x)¥}と表し、xAの要素であるといい、x¥in{A}と表す
    • そのテキスト表記

    • [tex:q(x)]なる性質を満たす[tex:x]の集まりを[tex:A]としたとき
    • [tex:A=\{x|q(x)\}]と表し、[tex:x]は[tex:A]の要素であるといい、[tex:x\in{A}]と表す

と(駆け足で読む統計学のための数学入門30講 2)

  • 第2講 和と積


  • 和(sum)、¥sum
    • 等差数列の和
      • ¥Large S_n=¥sum_{k=1}^{n}{a_k}=¥sum_{k=1}^{n}{¥{a+(k-1)d¥}=¥frac{n}{2}¥{2a+(n-1)d)¥}
    • 等比数列の和
      • ¥Large S_n=¥sum_{k=1}^{n}{a_k}=¥sum_{k=1}^{n}{ar^{k-1}=¥frac{a(1-r^n)}{1-r}
        • その無限和、ただし、公比|r|<1¥Large ¥sum_{k=1}^{¥infty}{a_k}=¥sum_{k=1}^{¥infty}{ar^{k-1}=¥frac{a}{1-r}
          • 幾何分布:成功する確率p、失敗する確率q=1-pのとき、x+1回目に初めて成功する(1...x回続けて失敗する)確率はpq^x。今、xが0の場合、1の場合、2の場合、・・・¥inftyの場合を数え上げると、¥Large ¥sum_{k=0}^{¥infty}pq^k=¥frac{p}{1-q}=¥frac{p}{p}=1である。すべての場合を足し合わせてその総和が1となったこの分布は、確率分布の1つであり、幾何分布と呼ばれる
  • 積(product)、¥prod
    • ¥Large ¥prod_{i=1}^{n}=x_1x_2¥cdots x_n
  • 統計の場面で
    • 平均  ¥overline{x}=¥frac{1}{n}¥sum_{i~1}^{n}x_i
    • 平方和  S_{xx}=¥sum_{i=1}^{n}(x_i-¥overline{x})^2=¥sum_{i=1}^{n}x_i^2-¥frac{(¥sum_{i=1}^{n}x_i)^2}{n}
    • 不偏分散 V_x=¥frac{S_{xx}}{n-1}
    • 偏差積和(データ対(x_i,y_i)について
      • S_{xy}=¥sum_{i=1}^{n}(x_i-¥overline{x})(y_i-¥overline{y})=¥sum_{i=1}^{n}x_iy_i-¥frac{(¥sum_{i=1}^{n}x_i)(¥sum_{i=1}^{n}y_i)}{n}
    • 相関係数
      • r=¥frac{S_{xy}}{¥sqrt{S_{xx}S_{yy}}}
    • 尤度と尤度関数
      • 尤度は複数の独立変数がある場合、それらの掛け算になり、変数の数が増えると相当小さい値になる。また、尤度比検定(2つの条件で得られた尤度を比較し、どちらの条件がよりたしからしいかを検定し、その確からしさをPに置き換える方法)においては、尤度の比(小さい数値となる尤度の割り算で得られる比)よりも、尤度の対数の差をとることによって行われる。なぜならば、対数尤度の差(の2倍)がカイ自乗分布に近似的に従い、P値化して検定することができるからである。このあたりの事情は次の式からわかる。
      • 条件¥theta_1での尤度L(¥theta_1)=¥prod_{i=1}^{n}p_i(¥theta_1)
      • 条件¥theta_2での尤度L(¥theta_2)=¥prod_{i=1}^{n}p_i(¥theta_2)
      • 尤度比¥frac{L(¥theta_1)}{L(¥theta_2)}=¥frac{¥prod_{i=1}^{n}p_i(¥theta_1)}{¥prod_{i=1}^{n}p_i(¥theta_2)}
      • 条件¥theta_1での対数尤度¥log{L(¥theta_1)}=¥log{¥prod_{i=1}^{n}p_i(¥theta_1)}=¥sum_{i=1}^n ¥log{p_i(¥theta_1)}
      • 条件¥theta_2での対数尤度¥log L(¥theta_2)=¥log ¥prod_{i=1}^{n}p_i(¥theta_2)=¥sum_{i=1}^n ¥log p_i(¥theta_2)
      • 対数尤度比¥frac{L(¥theta_1)}{L(¥theta_2)}=¥frac{¥prod_{i=1}^{n}p_i(¥theta_1)}{¥prod_{i=1}^{n}p_i(¥theta_2)}=¥sum_{i=1}^n ¥log p_i(¥theta_1)-¥sum_{i=1}^n ¥log p_i(¥theta_2)
  • このテキスト表記

和、[tex:\sum]
[tex:\Large S_n=\sum_{k=1}^{n}{a_k}=\sum_{k=1}^{n}{\{a+(k-1)d\}=\frac{n}{2}\{2a+(n-1)d)\}]
[tex:\Large S_n=\sum_{k=1}^{n}{a_k}=\sum_{k=1}^{n}{ar^{k-1}=\frac{a(1-r^n)}{1-r}]
[tex:|r|<1]。[tex:\Large \sum_{k=1}^{\infty}{a_k}=\sum_{k=1}^{\infty}{ar^{k-1}=\frac{a}{1-r}]
[tex:\Large \sum_{k=0}^{\infty}pq^k=\frac{p}{1-q}=\frac{p}{p}=1]
[tex:\Large \prod_{i=1}^{n}=x_1x_2\cdots x_n]
条件[tex:\theta_1]での尤度[tex:L(\theta_1)=\prod_{i=1}^{n}p_i(\theta_1)]
条件[tex:\theta_2]での尤度[tex:L(\theta_2)=\prod_{i=1}^{n}p_i(\theta_2)]
尤度比[tex:\frac{L(\theta_1)}{L(\theta_2)}=\frac{\prod_{i=1}^{n}p_i(\theta_1)}{\prod_{i=1}^{n}p_i(\theta_2)}]
条件[tex:\theta_1]での対数尤度[tex:\log{L(\theta_1)}=\log{\prod_{i=1}^{n}p_i(\theta_1)}=\sum_{i=1}^n \log{p_i(\theta_1)}]
条件[tex:\theta_2]での対数尤度[tex:\log L(\theta_2)=\log \prod_{i=1}^{n}p_i(\theta_2)=\sum_{i=1}^n \log p_i(\theta_2)]
対数尤度比[tex:\frac{L(\theta_1)}{L(\theta_2)}=\frac{\prod_{i=1}^{n}p_i(\theta_1)}{\prod_{i=1}^{n}p_i(\theta_2)}=\sum_{i=1}^n \log p_i(\theta_1)-\sum_{i=1}^n \log p_i(\theta_2)]

関数の展開(テイラー展開と漸近展開)(駆け足で読む統計学のための数学入門30講 7)

  • 第7講 関数の展開


テイラー展開は無限回数微分可能な関数を用いて、非多項式多項式に書き換えることである

漸近展開は、複雑な関数を性質のわかっている簡単な関数の有限個の定数倍の和に近似する手法で、テイラー展開できない微分不可能(な領域を含む)関数についても適用可能である

_n¥mathrm{C}_k=¥frac{n!}{k!(n-k)!}=¥frac{n(n-1)(n-2)¥cdots(n-k+1)}{k!}自然数n,kについて定義されているが、今、n,kのうち、nを有理数aとしてやっても、式は成り立つ。これを¥begin{pmatrix}a ¥¥ k ¥end{pmatrix}と表記する。[a=-n]ただし、nは自然数としたとき、『負の2項分布』と呼ばれる。テイラー展開を用いることで、『n回成功するまでにk回の失敗があって、総計n+k回の試行をした場合を考え、そのときの失敗の回数の確率分布がP_r(x=k)=(-1)^k¥begin{pmatrix}-n ¥¥ k ¥end{pmatrix}と表されることが式変換にて示される。

    • 幾何分布はn=1であるような負の2項分布である
  • ポアソン分布の分散もテイラー展開を用いて式変形できる
  • 確率分布を正規分布やその他の性質のよくわかっている分布に近似することはよく行われる。漸近展開は、解析対象分布関数を、正規分布などの近似使用としている関数とそれ以外の項に分けて展開することで、ある条件下(標本数が十分大きい場合(大数))でどのくらい近似がよいかなどの評価をする際に利用できる

[tex:_n\mathrm{C}_k=\frac{n!}{k!(n-k)!}=\frac{n(n-1)(n-2)\cdots(n-k+1)}{k!}]
[tex:\begin{pmatrix}a \\ k \end{pmatrix}][tex:P_r(x=k)=(-1)^k\begin{pmatrix}-n \\ k \end{pmatrix}]

  • コメントをいただきました。テイラー展開と漸近展開との関係がわかりにくい記載だ、との指摘なのかと思います。テイラー展開と漸近展開との相互関係については、こちらで。

積分(駆け足で読む統計学のための数学入門30講 8 9 10 12 13)


積分の公式のてふ表記

¥int x^{¥alpha}¥,dx=¥frac{1}{¥alpha+1}x^{¥alpha+1}+C

¥int e^x¥,dx=e^x+C

¥int a^x¥,dx=¥frac{1}{¥log{a}}a^x+C

¥int ¥frac{1}{x}¥,dx=¥log{|x|}+C

¥int ¥sin{x}¥,dx=-¥cos{x}+C

¥int ¥cos{x}¥,dx=¥sin{x}+C

¥int ¥frac{1}{sin^2{x}}¥,dx=¥tan{x}+C

¥int ¥frac{1}{¥sqrt{1-x^2}}¥,dx=¥sin^{-1}{x}+C

¥int ¥frac{1}{1+x^2}¥,dx=¥tan^{-1}{x}+C

  • 確率変数と確率密度関数積分
    • 確率変数とは、確率的に決まる値をとる変数のことである。確率変数のうち、連続的な値をとるものを連続型確率変数という。通常の2次元グラフでは横軸に確率変数の値を、縦軸に対応する確率をとったとき、連続型確率変数では、横軸について連続的な値をとるので、確率を表す曲線は連続である。
    • 確率変数xについてその確率密度関数f(x)で表されたとき、確率を表しているので、f(x)¥ge 0である、また、xのとりうる範囲(ここでは-¥infty ¥cdots ¥inftyとしよう、すべての確率変数は、とりうる範囲に制限があるかもしれないが、その場合にもこの定義は一般性を失っていない)について足し合わせるということは、確率の総和であるので、1になる。式で表せば¥int_{-¥infty}^[¥infty}f(x)¥,dx=1である。xがaからbまでを示す確率は¥int_{a}^{b}f(x)¥,dxである。また、累積分布関数とは、xのとりうる最小値からある値aまでの確率であり、¥int_{-¥infty}^{a}f(x)¥,dxと表される。
    • 確率密度関数の定義(下部面積の総和が1)から、式で表される諸関数分布をとる確率密度関数は、その-¥inftyから¥inftyの定積分で序した関数が確率密度関数となる
  • 期待値
    • 確率変数xの確率密度関数f(x)であるとき、期待値はE(x)=¥int_{-¥infty}^{¥infty}xf(x)¥,dxである。分散も、定義に帰って、積分を用いて計算すると、V(x)=E(x^2)-(E(x))^2になる
  • 数値積分
    • ある関数の定積分は、ある区間の面積を求めることであるが、関数によっては、¥int_{a}^{b}f(x)¥,dxが簡単に求められないこともある(不定積分が求められない)。一方、統計学である確率を知る(=確率密度関数区間の面積を知る)ことは必要であり、そのような場合には、近似値でもいいから計算してやることになる。期待値・分散・最小自乗誤差などを計算するにも、定積分を近似で求める必要が出る。区間の面積を近似する方法の1つが、台形の集まりとみなす「台形公式」、それより精度がよい「シンプソンの公式」もある。どちらを用いよ、と書いてくれていないが、おそらく、どちらでもよいのだろう(一定以上細かく区切る限り)。区間が無限な場合には、無視してよい小面積であることを確かめた上で、その部分を切り捨てて、有限区間を設定しなおし、近似する
  • 広義積分
    • 積分を求めるときに区間が無限のときには、有限区間の極限が存在するときに、それを無限区間の定積分の値をするとき、このような定積分を広義積分と呼ぶ。¥int_{a}^{¥infty}f(x)¥,dx=¥lim_{M¥to¥infty}¥int_{a}^{M}f(x)¥,dx
    • 積分を求めるにあたり、不定積分が求められず、数値計算で定積分を求めようとする場合(近似的な計算)で、区間が無限のときには、そもそも、その広義積分が存在していることを確かめてから計算することが必要である。したがって、広義積分があるかないかの判定方法が利用されることがある
    • 統計学では、無限区間の広義積分の存在を確かめることにより、次のようなことがいえる。自由度¥phiのカイ自乗分布はf(x)=¥frac{1}{¥Gamma(¥frac{¥phi}{2})2~{¥frac{¥phi}{2}}x^{¥frac{¥phi}{2}-1}e^{¥frac{-x}{2}}} (x>0)これは次項(『ガンマ関数とベータ関数』)でも述べるが、ガンマ関数分布G(¥frac{¥phi}{2},¥frac{1}{2})確率密度関数に同じである。¥frac{¥phi}{2}>0において、ガンマ分布には区間(0,¥infty)において広義積分が存在することから、すべての自然数である自由度¥phiについて積分が存在することがわかる。同様に正規分布に従うxの¥frac{1}{x}については、E(¥frac{1}{x}が存在しないが、それは、その広義積分が存在しないことからしめされる。同様にt分布において自由度1のときには、平均と分散が存在しないことを示すこともできて、t分布の場合で、平均が存在するのは、自由度が2以上のとき、分散が存在するのは3以上のときである。

[tex:\int x^{\alpha}\,dx=\frac{1}{\alpha+1}x^{\alpha+1}+C]
[tex:\int e^x\,dx=e^x+C]
[tex:\int a^x\,dx=\frac{1}{\log{a}}a^x+C]
[tex:\int \frac{1}{x}\,dx=\log{|x|}+C]
[tex:\int \sin{x}\,dx=-\cos{x}+C]
[tex:\int \cos{x}\,dx=\sin{x}+C]
[tex:\int \frac{1}{sin^2{x}}\,dx=\tan{x}+C]
[tex:\int \frac{1}{\sqrt{1-x^2}}\,dx=\sin^{-1}{x}+C]
[tex:\int \frac{1}{1+x^2}\,dx=\tan^{-1}{x}+C]

順列(permutation)と組み合わせ(combination)、階乗、二項分布・多項分布(駆け足で読む統計学のための数学入門30講 3)

  • 第3講 順列・組合せと二項定理・多項定理


  • 順列
    • _n¥mathrm{P}_x=n(n-1)(n-2)¥cdots(n-x+1)=¥frac{n!}{(n-x)!}
  • 組み合わせ
    • _n¥mathrm{C}_x=¥frac{_n¥mathrm{P}_x}{x!}=¥frac{n!}{(n-x)!x!}
  • 2項分布
    • (a+b)^n=¥sum_{k=0}^n_n¥mathrm{C}_ka^kb^{n-k}
    • a=P,b=1-Pとし、××である確率がPとするとn個のうちk個が××である確率はP_r(x=k)=_n¥mathrm{C}_kP^k(1-P)^{n-k}と表される。今、xについて0からkまですべてを足し合わせると¥sum_{k=0}^nP_r(x=k)=1となり、これも総和が1の確率分布であり、このような分布を2項分布と呼ぶ
  • 多項分布
  • 2項分布では、××か否か、をP1-Pかに分けたが、今、w通りの場合があって、それぞれが起きる確率がp_i, i=1¥cdots w, ¥sum_{k=1}^wp_k =1であるとして、全体でn=¥sum_{k=1}^wN_kあるとすると、そのn個の事象がN_1,N_2,¥cdots N_wとなる確率はP_r(x_1=N_1,x_2=N_2,¥cdots x_w=N_w)=¥frac{n!}{N_1!N_2!¥cdots N_w!}p_1^{N_1}p_2^{N_2}¥cdots p_w^{N_w}}と表させる。N_1,N_2,¥cdots N_wの組み合わせについてすべてを足し合わせると、その総和は1になり、確率分布であることがわかる。このような分布を多項分布という。
  • 期待値・期待値の分散
    • ある興味の対象がある値をとるものとし、その値が2項分布や幾何分布のように、あれかこれか(離散的な値)をとるとすると、その離散的な値をとる確率がP_r(x=k)が知られているとすると、xがとりうるすべてのkについて足し合わせると¥sum_k P_r(x=k)=1となる、また、¥sum_k kP_r(x=k)は、xの値の期待値E(x)である。2項分布の場合には、xが起きる回数ということでE(x)=nPとなることが式変形で示される。分散はV(x)=¥sum¥{k-E(x)¥}^2P_r(x=k)で示せるが、これも式変形でV(x)=E(x^2)-¥{E(x)¥}^2となる
  • これらのテキスト表記は

[tex:_n\mathrm{P}_x=n(n-1)(n-2)\cdots(n-x+1)=\frac{n!}{(n-x)!}]
[tex:_n\mathrm{C}_x=\frac{_n\mathrm{P}_x}{x!}=\frac{n!}{(n-x)!x!}]
[tex:(a+b)^n=\sum_{k=0}^n_n\mathrm{C}_ka^kb^{n-k}]
[tex:P_r(x_1=N_1,x_2=N_2,\cdots x_w=N_w)=\frac{n!}{N_1!N_2!\cdots N_w!}p_1^{N_1}p_2^{N_2}\cdots p_w^{N_w}}]

ガンマ関数とベータ関数(駆け足で読む統計学のための数学入門30講 11)



ガンマ関数とベータ関数は、一見、積分記号と指数関数をひねくって結合したように見えるが、特徴的な性質を持ち、しかもその性質ゆえに、統計学の検定に重要なガンマ分布・カイ自乗分布・ベータ分布・F分布と密接に関係している点で、1講をあてるに足る関数である

  • ガンマ関数
    • その表記:¥Gamma(x)=¥int_{0}^{¥infty}t^{x-1}e^{-t}¥,dt (x>0)
    • その性質
    • ガンマ分布・カイ自乗分布との関連
      • ガンマ分布
        • 確率密度関数f(x)=¥frac{¥lambda^{¥alpha}}{¥Gamma(¥alpha)}x^{¥alpha-1}e^{-¥lambda x} (x>0)はガンマ分布と呼ばれ、G(¥alpha,¥lambda)と表す

        • 指数分布はガンマ分布の1形態でG(1,¥lambda)である

        • ガンマ分布の平均(期待値)はE(x)=¥frac{¥alpha}{¥lambda}で、分散はV(x)=¥frac{¥alpha}{¥lambda^2}である

        • 自由度¥phiのカイ自乗分布の確率密度関数はガンマ分布G(¥frac{¥phi}{2},¥frac{1}{2}であり、その平均はE(x)=¥phiで分散はV(x)=2¥phiである

  • ベータ分布
    • その表記:B(x,y)=¥int_{0}^{1}t^{x-1}(1-t)^{y-1}¥,dt (x>0,y>0)
    • その性質
      • B(x,y)=B(y,x)
      • B(x,y)=¥frac{¥Gamma(x)¥Gamma(y)}{¥Gamma{x+y}}
      • B(m,n)=¥frac{(m-1)!(n-1)!}{(m+n-1)!} (m,nは自然数)
      • ベータ分布・F分布との関連
        • 確率密度関数f(x)=¥frac{1}{B(¥alpha,¥beta)}x^{¥alpha-1}(1-x)^{¥beta-1}(0<x<1)はベータ分布と呼ばれる</li>
        • ベータ分布の平均(期待値)はE(x)=¥frac{¥alpha}{¥alpha+¥beta}で、分散は¥frac{¥alpha¥beta}{(¥alpha+¥beta+1)(¥alpha+¥beta)^2}である

        • 自由度(¥phi_1,¥phi_2)のF分布の確率密度関数f(x)=¥frac{1}{B(¥frac{¥phi_1}{2},¥frac{¥phi_2}{2})}(¥frac{¥phi_1}{¥phi_2})^{¥frac{¥phi_1}{2}}x^{¥frac{¥phi_1}{2}-1}(1+¥frac{¥phi_1 x}{¥phi_2})^{-¥frac{¥phi_1+¥phi_2}{2}} (x>0)となるが、x=¥frac{y}{(¥frac{¥phi_1}{¥phi_2})(1-y)^2}なるyについて、yはB_e(¥frac{¥phi_1}{2},¥frac{¥phi_2}{2})に従う(B_eはベータ関数)



[tex:\Gamma(x)=\int_{0}^{\infty}t^{x-1}e^{-t}\,dt (x>0)]
[tex:\Gamma(x+1)=\Gamma(x)]
[tex:\Gamma(1)=\Gamma(1)]
[tex:\Gamma(n)=(n-1)!]
[tex:\Gamma(\frac{1}{2})=\sqrt{\pi}]
[tex:f(x)=\frac{\lambda^{\alpha}}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x} (x>0)][tex:G(\alpha,\lambda)]
[tex:G(1,\lambda)]
[tex:E(x)=\frac{\alpha}{\lambda}]
[tex:V(x)=\frac{\alpha}{\lambda^2}][tex:G(\frac{\phi}{2},\frac{1}{2}][tex:E(x)=\phi][tex:V(x)=2\phi]