極限・関数の大小比較とランダウの記法(駆け足で読む統計学のための数学入門30講 4)
- 第4講 極限
関数ははにてある値に収束する、もしくは、に発散するとき、次のように書く
- ポアソン分布は2項分布の生起確率Pをゼロに限りなく近づけたものに相当している
- 2項分布は、ある事象が起きる確率Pと起きない確率1-Pであるときに、総計N回の観測で、k回起きる確率を与える分布である
- この式では、N回試行してk回起きる確率が求められている。言い換えると試行回数を指定して、起きる回数も指定することでその確率が求められている
- ポアソン分布は2項分布の極限
- 今、Pが非常に小さい事象を考える。非常に小さいのでこれくらい(たとえば1万回に1回くらい)なことはわかっているが、実際に何回試行するかは未定だとする。そのような場合にも、極限をとることで、事象がk回起きる確率が計算できる。それは、生起確率が非常に小さいので、実際にN回試行するとしようとN'回試行すると仮定しようと、回試行すると仮定した場合とみなせるような状況だから、である(多分。)
- 実際に2項分布の極限をとってみる
- 非常に小さい生起確率とすると、n回の試行においてk回起きる確率は
- 今、とするとと式変形できて、これは、k回起きる確率が(1万回に1回くらい稀な事象、というときのとkのみによって決まることがわかる
- 非常に小さい生起確率とすると、n回の試行においてk回起きる確率は
- 2項分布は、ある事象が起きる確率Pと起きない確率1-Pであるときに、総計N回の観測で、k回起きる確率を与える分布である
- アルゴリズムA1とアルゴリズムA2とがあって、いずれも、入力データサイズが大きくなれば大きくなるほど計算量は増える。したがって、いずれのアルゴリズムの計算量も発散する。しかしながら、アルゴリズムの計算量は、その発散の速さの多寡で比較する。そのときに用いるのが、ランダウの表記である
- 今、ある関数とがにおいてともにに発散するとする。そうは言っても、その発散の速度には違いが存在しえて、(1)の場合と、(2),Cは定数の場合と、(3)それよりも大(xに関する増大関数)の場合とである。(1)の場合、はより高位の無限大(より速く発散する)ことを示し、(2)の場合、はと同位の無限大(同じくらいの速度で発散する)ことが示されている。(3)の場合にははより高位の無限大(より速く発散する)ことが示されている。(1)のとき、と書いて、はのスモールオーダーになっていると言う。(2)の場合には、と書いて、ラージオーダーになっていると言う。(2)のようなとき、の計算量はたかだかのそれであることが示される。アルゴリズムAの計算量はである、などと用いる
微分・極大(駆け足で読む統計学のための数学入門30講 5 6)
なめらかな関数の傾き
は傾きゼロの位置→極大・極小点
確率密度関数は、関数によって囲まれる面積(積分値)が1である関数であり、その最大値を与える点が最尤推定量となる。したがって、確率密度関数の最大値を与える点か、その微分関数をゼロとする点かを探索する。最尤推定量を与える点を見出す方法には、尤度比検定・スコア検定・ワルド検定がある。
- 確率密度関数についてはこちら
- 尤度比検定・スコア検定・ワルド検定についてはこちらやこちら
- の解を求めるにあたり、を用いて、解への収束を目指す方法をニュートン法という
- 相関プロットの回帰直線を求める方法に最小二乗法がある。これは、回帰直線とプロットとの距離の和Sを回帰直線の傾きbの関数とみなし、と表す。Sが最小となる点では、となるようなbを求める方法である
[tex:(x^z)'=ax^{a-1}]
[tex:(e^x)'=e^x]
[tex:(a^x)'=a^x\log a]
[tex:(log|x|)'=\frac{1}{x}]
[tex:(\sin x)'=\cos x]
[tex:(\cos x)'=\sin x]
[tex:(\tan x)'=\frac{1}{\cos^2 x}]
[tex:(\sin^{-1}x)'=\frac{1}{\sqrt{1-x^2}}]
[tex:(\cos^{-1}x)'=\frac{-1}{\sqrt{1-x^2}}]
[tex:(\tan^{-1}x)'=\frac{1}{1+x^2}]
高校数学の復習(駆け足で読む統計学のための数学入門30講 1)
- 第1講 基礎事項とア・ラ・カルト
[tex:ax^2+bx+c=0]
[tex:\Large x=\frac{-b\pm\sqrt{b^2-4ac}}{2a}]
[tex:D=b^2-4ac]
- 平方完成
- 二次式を「なんとかの二乗」「足す」「なんとか」、にすること
- ただし
- そのテキスト表記
[tex:\Large a(x-A)^2+b(x-B)^2=(a+b)(x-C)^2+\frac{ab}{a+b}(A-B)^2]
[tex:\Large C=\frac{aA+bB}{a+b}]
-
- [tex:i=\sqrt{-1}(i^2=-1)]
- 複素数は[tex:a+bi]と表し、[tex:a]を実部、[tex:b]を虚部と呼ぶ
- [tex:\alpha=a-bi] は [tex:\overline{\alpha}=a+bi] の共役複素数と呼び、
- [tex:\alpha] が実数ならは、[tex:\alpha = \overline{\alpha}]
- [tex:\overline{\alpha\pm\beta}=\overline{\alpha}\pm\overline{\beta}]
- [tex:\overline{\alpha\beta}=\overline{\alpha}\overline{\beta}]
- [tex:\Large \overline{\bigl(\frac{\alpha}{\beta}\bigr)}=\frac{\overline{\alpha}}{\overline{\beta}}], [tex:(\beta\not=0)]
- [tex:\alpha\overline{\alpha}=a^2+b^2]
- 指数と対数
- 指数関数 は単調増加関数で,
- 対数関数 は単調増加関数で,
- 対数
- として
- として
- そのテキスト表記
- 集合
- なる性質を満たすの集まりをとしたとき
- と表し、はの要素であるといい、と表す
- そのテキスト表記
と(駆け足で読む統計学のための数学入門30講 2)
- 第2講 和と積
- 和(sum)、
- 等差数列の和
- 等比数列の和
- その無限和、ただし、公比。
- 幾何分布:成功する確率、失敗する確率のとき、回目に初めて成功する(回続けて失敗する)確率は。今、が0の場合、1の場合、2の場合、・・・の場合を数え上げると、である。すべての場合を足し合わせてその総和が1となったこの分布は、確率分布の1つであり、幾何分布と呼ばれる
- その無限和、ただし、公比。
- 等差数列の和
- 積(product)、
- 統計の場面で
- 平均
- 平方和
- 不偏分散
- 偏差積和(データ対について
- 相関係数
- 尤度と尤度関数
- このテキスト表記
和、[tex:\sum]
[tex:\Large S_n=\sum_{k=1}^{n}{a_k}=\sum_{k=1}^{n}{\{a+(k-1)d\}=\frac{n}{2}\{2a+(n-1)d)\}]
[tex:\Large S_n=\sum_{k=1}^{n}{a_k}=\sum_{k=1}^{n}{ar^{k-1}=\frac{a(1-r^n)}{1-r}]
[tex:|r|<1]。[tex:\Large \sum_{k=1}^{\infty}{a_k}=\sum_{k=1}^{\infty}{ar^{k-1}=\frac{a}{1-r}]
[tex:\Large \sum_{k=0}^{\infty}pq^k=\frac{p}{1-q}=\frac{p}{p}=1]
[tex:\Large \prod_{i=1}^{n}=x_1x_2\cdots x_n]
条件[tex:\theta_1]での尤度[tex:L(\theta_1)=\prod_{i=1}^{n}p_i(\theta_1)]
条件[tex:\theta_2]での尤度[tex:L(\theta_2)=\prod_{i=1}^{n}p_i(\theta_2)]
尤度比[tex:\frac{L(\theta_1)}{L(\theta_2)}=\frac{\prod_{i=1}^{n}p_i(\theta_1)}{\prod_{i=1}^{n}p_i(\theta_2)}]
条件[tex:\theta_1]での対数尤度[tex:\log{L(\theta_1)}=\log{\prod_{i=1}^{n}p_i(\theta_1)}=\sum_{i=1}^n \log{p_i(\theta_1)}]
条件[tex:\theta_2]での対数尤度[tex:\log L(\theta_2)=\log \prod_{i=1}^{n}p_i(\theta_2)=\sum_{i=1}^n \log p_i(\theta_2)]
対数尤度比[tex:\frac{L(\theta_1)}{L(\theta_2)}=\frac{\prod_{i=1}^{n}p_i(\theta_1)}{\prod_{i=1}^{n}p_i(\theta_2)}=\sum_{i=1}^n \log p_i(\theta_1)-\sum_{i=1}^n \log p_i(\theta_2)]
関数の展開(テイラー展開と漸近展開)(駆け足で読む統計学のための数学入門30講 7)
- 第7講 関数の展開
テイラー展開は無限回数微分可能な関数を用いて、非多項式を多項式に書き換えることである
漸近展開は、複雑な関数を性質のわかっている簡単な関数の有限個の定数倍の和に近似する手法で、テイラー展開できない微分不可能(な領域を含む)関数についても適用可能である
- 負の2項分布(テイラー展開を利用した例)
は自然数n,kについて定義されているが、今、n,kのうち、nを有理数aとしてやっても、式は成り立つ。これをと表記する。[a=-n]ただし、nは自然数としたとき、『負の2項分布』と呼ばれる。テイラー展開を用いることで、『n回成功するまでにk回の失敗があって、総計n+k回の試行をした場合を考え、そのときの失敗の回数の確率分布がと表されることが式変換にて示される。
- 幾何分布はであるような負の2項分布である
- ポアソン分布の分散もテイラー展開を用いて式変形できる
- 確率分布を正規分布やその他の性質のよくわかっている分布に近似することはよく行われる。漸近展開は、解析対象分布関数を、正規分布などの近似使用としている関数とそれ以外の項に分けて展開することで、ある条件下(標本数が十分大きい場合(大数))でどのくらい近似がよいかなどの評価をする際に利用できる
[tex:_n\mathrm{C}_k=\frac{n!}{k!(n-k)!}=\frac{n(n-1)(n-2)\cdots(n-k+1)}{k!}]
[tex:\begin{pmatrix}a \\ k \end{pmatrix}][tex:P_r(x=k)=(-1)^k\begin{pmatrix}-n \\ k \end{pmatrix}]
積分(駆け足で読む統計学のための数学入門30講 8 9 10 12 13)
積分の公式のてふ表記
- 確率変数と確率密度関数と積分
- 確率変数とは、確率的に決まる値をとる変数のことである。確率変数のうち、連続的な値をとるものを連続型確率変数という。通常の2次元グラフでは横軸に確率変数の値を、縦軸に対応する確率をとったとき、連続型確率変数では、横軸について連続的な値をとるので、確率を表す曲線は連続である。
- 確率変数xについてその確率密度関数がで表されたとき、確率を表しているので、である、また、xのとりうる範囲(ここではとしよう、すべての確率変数は、とりうる範囲に制限があるかもしれないが、その場合にもこの定義は一般性を失っていない)について足し合わせるということは、確率の総和であるので、1になる。式で表せばである。xがaからbまでを示す確率はである。また、累積分布関数とは、xのとりうる最小値からある値aまでの確率であり、と表される。
- 確率密度関数の定義(下部面積の総和が1)から、式で表される諸関数分布をとる確率密度関数は、そのからの定積分で序した関数が確率密度関数となる
- 期待値
- 数値積分
- ある関数の定積分は、ある区間の面積を求めることであるが、関数によっては、が簡単に求められないこともある(不定積分が求められない)。一方、統計学である確率を知る(=確率密度関数の区間の面積を知る)ことは必要であり、そのような場合には、近似値でもいいから計算してやることになる。期待値・分散・最小自乗誤差などを計算するにも、定積分を近似で求める必要が出る。区間の面積を近似する方法の1つが、台形の集まりとみなす「台形公式」、それより精度がよい「シンプソンの公式」もある。どちらを用いよ、と書いてくれていないが、おそらく、どちらでもよいのだろう(一定以上細かく区切る限り)。区間が無限な場合には、無視してよい小面積であることを確かめた上で、その部分を切り捨てて、有限区間を設定しなおし、近似する
- 広義積分
- 定積分を求めるときに区間が無限のときには、有限区間の極限が存在するときに、それを無限区間の定積分の値をするとき、このような定積分を広義積分と呼ぶ。
- 定積分を求めるにあたり、不定積分が求められず、数値計算で定積分を求めようとする場合(近似的な計算)で、区間が無限のときには、そもそも、その広義積分が存在していることを確かめてから計算することが必要である。したがって、広義積分があるかないかの判定方法が利用されることがある
- 統計学では、無限区間の広義積分の存在を確かめることにより、次のようなことがいえる。自由度のカイ自乗分布はこれは次項(『ガンマ関数とベータ関数』)でも述べるが、ガンマ関数分布の確率密度関数に同じである。において、ガンマ分布には区間において広義積分が存在することから、すべての自然数である自由度について積分が存在することがわかる。同様に正規分布に従うxのについては、が存在しないが、それは、その広義積分が存在しないことからしめされる。同様にt分布において自由度1のときには、平均と分散が存在しないことを示すこともできて、t分布の場合で、平均が存在するのは、自由度が2以上のとき、分散が存在するのは3以上のときである。
[tex:\int x^{\alpha}\,dx=\frac{1}{\alpha+1}x^{\alpha+1}+C]
[tex:\int e^x\,dx=e^x+C]
[tex:\int a^x\,dx=\frac{1}{\log{a}}a^x+C]
[tex:\int \frac{1}{x}\,dx=\log{|x|}+C]
[tex:\int \sin{x}\,dx=-\cos{x}+C]
[tex:\int \cos{x}\,dx=\sin{x}+C]
[tex:\int \frac{1}{sin^2{x}}\,dx=\tan{x}+C]
[tex:\int \frac{1}{\sqrt{1-x^2}}\,dx=\sin^{-1}{x}+C]
[tex:\int \frac{1}{1+x^2}\,dx=\tan^{-1}{x}+C]
順列(permutation)と組み合わせ(combination)、階乗、二項分布・多項分布(駆け足で読む統計学のための数学入門30講 3)
- 第3講 順列・組合せと二項定理・多項定理
- 順列
- 組み合わせ
- 2項分布
- とし、××である確率がとするとn個のうちk個が××である確率はと表される。今、xについて0からkまですべてを足し合わせるととなり、これも総和が1の確率分布であり、このような分布を2項分布と呼ぶ
- 多項分布
- 2項分布では、××か否か、をかかに分けたが、今、通りの場合があって、それぞれが起きる確率がであるとして、全体であるとすると、その個の事象がとなる確率はと表させる。の組み合わせについてすべてを足し合わせると、その総和は1になり、確率分布であることがわかる。このような分布を多項分布という。
- 期待値・期待値の分散
- ある興味の対象がある値をとるものとし、その値が2項分布や幾何分布のように、あれかこれか(離散的な値)をとるとすると、その離散的な値をとる確率がが知られているとすると、xがとりうるすべてのkについて足し合わせるととなる、また、は、xの値の期待値である。2項分布の場合には、xが起きる回数ということでとなることが式変形で示される。分散はで示せるが、これも式変形でとなる
- これらのテキスト表記は
[tex:_n\mathrm{P}_x=n(n-1)(n-2)\cdots(n-x+1)=\frac{n!}{(n-x)!}]
[tex:_n\mathrm{C}_x=\frac{_n\mathrm{P}_x}{x!}=\frac{n!}{(n-x)!x!}]
[tex:(a+b)^n=\sum_{k=0}^n_n\mathrm{C}_ka^kb^{n-k}]
[tex:P_r(x_1=N_1,x_2=N_2,\cdots x_w=N_w)=\frac{n!}{N_1!N_2!\cdots N_w!}p_1^{N_1}p_2^{N_2}\cdots p_w^{N_w}}]
ガンマ関数とベータ関数(駆け足で読む統計学のための数学入門30講 11)
ガンマ関数とベータ関数は、一見、積分記号と指数関数をひねくって結合したように見えるが、特徴的な性質を持ち、しかもその性質ゆえに、統計学の検定に重要なガンマ分布・カイ自乗分布・ベータ分布・F分布と密接に関係している点で、1講をあてるに足る関数である
- ガンマ関数
- ベータ分布
[tex:\Gamma(x)=\int_{0}^{\infty}t^{x-1}e^{-t}\,dt (x>0)]
[tex:\Gamma(x+1)=\Gamma(x)]
[tex:\Gamma(1)=\Gamma(1)]
[tex:\Gamma(n)=(n-1)!]
[tex:\Gamma(\frac{1}{2})=\sqrt{\pi}]
[tex:f(x)=\frac{\lambda^{\alpha}}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x} (x>0)][tex:G(\alpha,\lambda)]
[tex:G(1,\lambda)]
[tex:E(x)=\frac{\alpha}{\lambda}]
[tex:V(x)=\frac{\alpha}{\lambda^2}][tex:G(\frac{\phi}{2},\frac{1}{2}][tex:E(x)=\phi][tex:V(x)=2\phi]