2005-11-27

第１部　基礎と１変数関数

統計学てふ

なお、この記事は、『統計学のための数学入門30講』シリーズ科学のことばとしての数学永田靖著朝倉書店を教科書とし、遺伝統計学を学ぶための基礎を確認するためのものです。全体の目次はこちら

2005-11-27

極限・関数の大小比較とランダウの記法(駆け足で読む統計学のための数学入門30講 4)

統計学

第４講　極限

関数は $f(x)$ は $x￥to a$ にてある値 $￥alpha$ に収束する、もしくは、 $￥pm ￥infty$ に発散するとき、次のように書く

$￥lim_{x￥to a}f(x)=￥alpha,￥pm ￥infty$

ポアソン分布は２項分布の生起確率Pをゼロに限りなく近づけたものに相当している
- ２項分布は、ある事象が起きる確率Pと起きない確率1-Pであるときに、総計N回の観測で、k回起きる確率を与える分布である
  - $P_r(x=k)=_n￥mathrm{C}_kP^k(1-P)^{n-k}$
  - この式では、N回試行してk回起きる確率が求められている。言い換えると試行回数を指定して、起きる回数も指定することでその確率が求められている
- ポアソン分布は２項分布の極限
  - 今、Pが非常に小さい事象を考える。非常に小さいのでこれくらい(たとえば１万回に１回くらい)なことはわかっているが、実際に何回試行するかは未定だとする。そのような場合にも、極限をとることで、事象がk回起きる確率が計算できる。それは、生起確率が非常に小さいので、実際にN回試行するとしようとN'回試行すると仮定しようと、 $N￥to ￥infty$ 回試行すると仮定した場合とみなせるような状況だから、である(多分。）
  - 実際に２項分布の極限をとってみる
    - 非常に小さい生起確率とすると、n回の試行においてk回起きる確率は
      - $P_r(x=k)=_n￥mathrm{C}_kP^k(1-P)^{n-k}=_n￥mathrm{C}_k(￥frac{m}{n})^k(1-￥frac{m}{n})^{n-k}$
      - 今、 $n￥to ￥infty$ とすると $￥lin_{n￥to ￥infty}P_r(x=k)=￥frac{￥lambda^k}{k!}e^{-￥lambda}$ と式変形できて、これは、k回起きる確率が $￥lambda$ (１万回に１回くらい稀な事象、というときの $￥frac{1}{10000}$ とkのみによって決まることがわかる
アルゴリズムA1とアルゴリズムA2とがあって、いずれも、入力データサイズが大きくなれば大きくなるほど計算量は増える。したがって、いずれのアルゴリズムの計算量も発散する。しかしながら、アルゴリズムの計算量は、その発散の速さの多寡で比較する。そのときに用いるのが、ランダウの表記である
- 今、ある関数 $f(x)$ と $g(x)$ が $x￥to ￥infty$ においてともに $￥infty$ に発散するとする。そうは言っても、その発散の速度には違いが存在しえて、(1) $￥lim_{x￥to ￥infty}￥frac{f(x)}{g(x)}=0$ の場合と、(2) $￥lim_{x￥to ￥infty}￥frac{f(x)}{g(x)}=C$ ,Cは定数の場合と、(3)それよりも大(xに関する増大関数)の場合とである。(1)の場合、 $g(x)$ は $f(x)$ より高位の無限大(より速く発散する)ことを示し、(2)の場合、 $f(x)$ は $g(x)$ と同位の無限大(同じくらいの速度で発散する)ことが示されている。(3)の場合には $f(x)$ は $g(x)$ より高位の無限大(より速く発散する)ことが示されている。(1)のとき、 $g(x)=o(f(x))$ と書いて、 $g(x)$ は $f(x)$ のスモールオーダーになっていると言う。(2)の場合には、 $g(x)=O(f(x))$ と書いて、ラージオーダーになっていると言う。(2)のようなとき、 $g(x)$ の計算量はたかだか $f(x)$ のそれであることが示される。アルゴリズムAの計算量は $O(N￥log N)$ である、などと用いる

2005-11-27

微分・極大(駆け足で読む統計学のための数学入門30講 5 6)

統計学

第５講　微分
第６講　関数の極値

なめらかな関数の傾き

$f’(x)=0$ は傾きゼロの位置→極大・極小点

確率密度関数は、関数によって囲まれる面積(積分値)が１である関数であり、その最大値を与える点が最尤推定量となる。したがって、確率密度関数の最大値を与える点か、その微分関数をゼロとする点かを探索する。最尤推定量を与える点を見出す方法には、尤度比検定・スコア検定・ワルド検定がある。

確率密度関数についてはこちら
尤度比検定・スコア検定・ワルド検定についてはこちらやこちら
$f(x)=0$ の解を求めるにあたり、 $f’(x),f’’(x)$ を用いて、解への収束を目指す方法をニュートン法という
相関プロットの回帰直線を求める方法に最小二乗法がある。これは、回帰直線とプロットとの距離の和Sを回帰直線の傾きbの関数とみなし、 $S=￥sum_{i=1}^n(y_i-bx_i)^2$ と表す。Sが最小となる点では、 $￥frac{dS}{db}=0$ となるようなbを求める方法である

$(x^z)’=ax^{a-1}$

$(e^x)’=e^x$

$(a^x)’=a^x￥log a$

$(log|x|)’=￥frac{1}{x}$

$(￥sin x)’=￥cos x$

$(￥cos x)’=￥sin x$

$(￥tan x)’=￥frac{1}{￥cos^2 x}$

$(￥sin^{-1}x)’=￥frac{1}{￥sqrt{1-x^2}}$

$(￥cos^{-1}x)’=￥frac{-1}{￥sqrt{1-x^2}}$

$(￥tan^{-1}x)’=￥frac{1}{1+x^2}$



[tex:(x^z)'=ax^{a-1}]

[tex:(e^x)'=e^x]

[tex:(a^x)'=a^x\log a]

[tex:(log|x|)'=\frac{1}{x}]

[tex:(\sin x)'=\cos x]

[tex:(\cos x)'=\sin x]

[tex:(\tan x)'=\frac{1}{\cos^2 x}]

[tex:(\sin^{-1}x)'=\frac{1}{\sqrt{1-x^2}}]

[tex:(\cos^{-1}x)'=\frac{-1}{\sqrt{1-x^2}}]

[tex:(\tan^{-1}x)'=\frac{1}{1+x^2}]

2005-11-27

高校数学の復習(駆け足で読む統計学のための数学入門30講 1)

統計学

第１講　基礎事項とア・ラ・カルト

二次方程式の解
- $ax^2+bx+c=0$ の解。 $￥Large x=￥frac{-b￥pm￥sqrt{b^2-4ac}}{2a}$
- は判別式。二次方程式が実数解を持つか虚数解を持つかを判別する式
  - そのテキスト表記



[tex:ax^2+bx+c=0]

[tex:\Large x=\frac{-b\pm\sqrt{b^2-4ac}}{2a}]

[tex:D=b^2-4ac]

平方完成
- 二次式を「なんとかの二乗」「足す」「なんとか」、にすること
- ただし
  - そのテキスト表記



[tex:\Large a(x-A)^2+b(x-B)^2=(a+b)(x-C)^2+\frac{ab}{a+b}(A-B)^2]

[tex:\Large C=\frac{aA+bB}{a+b}]

複素数
- $i=￥sqrt{-1}(i^2=-1)$
- 複素数は $a+bi$ と表し、 $a$ を実部、 $b$ を虚部と呼ぶ
- はの共役複素数と呼び、
  - $￥alpha$ が実数ならは、 $￥alpha = ￥overline{￥alpha}$
  - $￥overline{￥alpha￥pm￥beta}=￥overline{￥alpha}￥pm￥overline{￥beta}$
  - $￥overline{￥alpha￥beta}=￥overline{￥alpha}￥overline{￥beta}$
  - $￥Large ￥overline{￥bigl(￥frac{￥alpha}{￥beta}￥bigr)}=￥frac{￥overline{￥alpha}}{￥overline{￥beta}}$ , $(￥beta￥not=0)$
  - $￥alpha￥overline{￥alpha}=a^2+b^2$
  - そのテキスト表記






[tex:i=\sqrt{-1}(i^2=-1)]
複素数は[tex:a+bi]と表し、[tex:a]を実部、[tex:b]を虚部と呼ぶ
[tex:\alpha=a-bi] は [tex:\overline{\alpha}=a+bi] の共役複素数と呼び、

[tex:\alpha] が実数ならは、[tex:\alpha = \overline{\alpha}]
[tex:\overline{\alpha\pm\beta}=\overline{\alpha}\pm\overline{\beta}]
[tex:\overline{\alpha\beta}=\overline{\alpha}\overline{\beta}]
[tex:\Large \overline{\bigl(\frac{\alpha}{\beta}\bigr)}=\frac{\overline{\alpha}}{\overline{\beta}}], [tex:(\beta\not=0)]
[tex:\alpha\overline{\alpha}=a^2+b^2]

指数と対数
- 指数関数 $y=a^x (a>0,a￥not=1)$ は単調増加関数で $￥lim_{x￥to-￥infty}e^x=0$ , $￥lim_{x￥to￥infty}e^x=￥infty$
- 対数関数 $y=￥log_ax$ は単調増加関数で $￥lim_{x￥to0}￥log{x}=-￥infty$ , $￥lim_{x￥to￥infty}￥log{x}=￥infty$
- 対数
  - として
    - $￥log_a{a}=1$
    - $￥log_a{1}=0$
    - $M=a^{￥log_a{M}}$
    - $￥log_a{MN}=￥log_aM+￥log_zN$
    - $￥log_a{￥frac{M}{N}}=￥log_aM-￥log_aN$
    - $￥log_a{M^t}=t￥log_aM$
    - $￥log_aM=￥frac{￥log_bM}{￥log_ba}$
- そのテキスト表記






指数関数 [tex:y=a^x (a>0,a\not=1)]は単調増加関数で[tex:\lim_{x\to-\infty}e^x=0], [tex:\lim_{x\to\infty}e^x=\infty]
対数関数 [tex:y=\log_ax]は単調増加関数で[tex:\lim_{x\to0}\log{x}=-\infty], [tex:\lim_{x\to\infty}\log{x}=\infty]
対数

[tex:a>0,a\not=1,b>0,b\not=1,M>0,N>0]として

[tex:\log_a{a}=1]
[tex:\log_a{1}=0]
[tex:M=a^{\log_a{M}}]
[tex:\log_a{MN}=\log_aM+\log_zN]
[tex:\log_a{\frac{M}{N}}=\log_aM-\log_aN]
[tex:\log_a{M^t}=t\log_aM]
[tex:\log_aM=\frac{\log_bM}{\log_ba}]

集合
- $q(x)$ なる性質を満たす $x$ の集まりを $A$ としたとき
- $A=￥{x|q(x)￥}$ と表し、 $x$ は $A$ の要素であるといい、 $x￥in{A}$ と表す
- そのテキスト表記






[tex:q(x)]なる性質を満たす[tex:x]の集まりを[tex:A]としたとき
[tex:A=\{x|q(x)\}]と表し、[tex:x]は[tex:A]の要素であるといい、[tex:x\in{A}]と表す

2005-11-27

と(駆け足で読む統計学のための数学入門30講 2)

統計学

第２講　和と積

和(sum)、
- 等差数列の和
  - $￥Large S_n=￥sum_{k=1}^{n}{a_k}=￥sum_{k=1}^{n}{￥{a+(k-1)d￥}=￥frac{n}{2}￥{2a+(n-1)d)￥}$
- 等比数列の和
  - - その無限和、ただし、公比。
      - 幾何分布：成功する確率 $p$ 、失敗する確率 $q=1-p$ のとき、 $x+1$ 回目に初めて成功する（ $1...x$ 回続けて失敗する）確率は $pq^x$ 。今、 $x$ が0の場合、1の場合、2の場合、・・・ $￥infty$ の場合を数え上げると、 $￥Large ￥sum_{k=0}^{￥infty}pq^k=￥frac{p}{1-q}=￥frac{p}{p}=1$ である。すべての場合を足し合わせてその総和が１となったこの分布は、確率分布の１つであり、幾何分布と呼ばれる
積(product)、
- $￥Large ￥prod_{i=1}^{n}=x_1x_2￥cdots x_n$
統計の場面で
- 平均 $￥overline{x}=￥frac{1}{n}￥sum_{i~1}^{n}x_i$
- 平方和 $S_{xx}=￥sum_{i=1}^{n}(x_i-￥overline{x})^2=￥sum_{i=1}^{n}x_i^2-￥frac{(￥sum_{i=1}^{n}x_i)^2}{n}$
- 不偏分散 $V_x=￥frac{S_{xx}}{n-1}$
- 偏差積和（データ対について
  - $S_{xy}=￥sum_{i=1}^{n}(x_i-￥overline{x})(y_i-￥overline{y})=￥sum_{i=1}^{n}x_iy_i-￥frac{(￥sum_{i=1}^{n}x_i)(￥sum_{i=1}^{n}y_i)}{n}$
- 相関係数
  - $r=￥frac{S_{xy}}{￥sqrt{S_{xx}S_{yy}}}$
- 尤度と尤度関数
  - 尤度は複数の独立変数がある場合、それらの掛け算になり、変数の数が増えると相当小さい値になる。また、尤度比検定（２つの条件で得られた尤度を比較し、どちらの条件がよりたしからしいかを検定し、その確からしさをＰに置き換える方法）においては、尤度の比（小さい数値となる尤度の割り算で得られる比）よりも、尤度の対数の差をとることによって行われる。なぜならば、対数尤度の差（の２倍）がカイ自乗分布に近似的に従い、Ｐ値化して検定することができるからである。このあたりの事情は次の式からわかる。
  - 条件 $￥theta_1$ での尤度 $L(￥theta_1)=￥prod_{i=1}^{n}p_i(￥theta_1)$
  - 条件 $￥theta_2$ での尤度 $L(￥theta_2)=￥prod_{i=1}^{n}p_i(￥theta_2)$
  - 尤度比 $￥frac{L(￥theta_1)}{L(￥theta_2)}=￥frac{￥prod_{i=1}^{n}p_i(￥theta_1)}{￥prod_{i=1}^{n}p_i(￥theta_2)}$
  - 条件 $￥theta_1$ での対数尤度 $￥log{L(￥theta_1)}=￥log{￥prod_{i=1}^{n}p_i(￥theta_1)}=￥sum_{i=1}^n ￥log{p_i(￥theta_1)}$
  - 条件 $￥theta_2$ での対数尤度 $￥log L(￥theta_2)=￥log ￥prod_{i=1}^{n}p_i(￥theta_2)=￥sum_{i=1}^n ￥log p_i(￥theta_2)$
  - 対数尤度比 $￥frac{L(￥theta_1)}{L(￥theta_2)}=￥frac{￥prod_{i=1}^{n}p_i(￥theta_1)}{￥prod_{i=1}^{n}p_i(￥theta_2)}=￥sum_{i=1}^n ￥log p_i(￥theta_1)-￥sum_{i=1}^n ￥log p_i(￥theta_2)$
このテキスト表記



和、[tex:\sum]

[tex:\Large S_n=\sum_{k=1}^{n}{a_k}=\sum_{k=1}^{n}{\{a+(k-1)d\}=\frac{n}{2}\{2a+(n-1)d)\}]

[tex:\Large S_n=\sum_{k=1}^{n}{a_k}=\sum_{k=1}^{n}{ar^{k-1}=\frac{a(1-r^n)}{1-r}]

[tex:|r|<1]。[tex:\Large \sum_{k=1}^{\infty}{a_k}=\sum_{k=1}^{\infty}{ar^{k-1}=\frac{a}{1-r}]

[tex:\Large \sum_{k=0}^{\infty}pq^k=\frac{p}{1-q}=\frac{p}{p}=1]

[tex:\Large \prod_{i=1}^{n}=x_1x_2\cdots x_n]

条件[tex:\theta_1]での尤度[tex:L(\theta_1)=\prod_{i=1}^{n}p_i(\theta_1)]

条件[tex:\theta_2]での尤度[tex:L(\theta_2)=\prod_{i=1}^{n}p_i(\theta_2)]

尤度比[tex:\frac{L(\theta_1)}{L(\theta_2)}=\frac{\prod_{i=1}^{n}p_i(\theta_1)}{\prod_{i=1}^{n}p_i(\theta_2)}]

条件[tex:\theta_1]での対数尤度[tex:\log{L(\theta_1)}=\log{\prod_{i=1}^{n}p_i(\theta_1)}=\sum_{i=1}^n \log{p_i(\theta_1)}]

条件[tex:\theta_2]での対数尤度[tex:\log L(\theta_2)=\log \prod_{i=1}^{n}p_i(\theta_2)=\sum_{i=1}^n \log p_i(\theta_2)]

対数尤度比[tex:\frac{L(\theta_1)}{L(\theta_2)}=\frac{\prod_{i=1}^{n}p_i(\theta_1)}{\prod_{i=1}^{n}p_i(\theta_2)}=\sum_{i=1}^n \log p_i(\theta_1)-\sum_{i=1}^n \log p_i(\theta_2)]

2005-11-27

関数の展開(テイラー展開と漸近展開)(駆け足で読む統計学のための数学入門30講 7)

統計学

第７講　関数の展開

テイラー展開は無限回数微分可能な関数を用いて、非多項式を多項式に書き換えることである

漸近展開は、複雑な関数を性質のわかっている簡単な関数の有限個の定数倍の和に近似する手法で、テイラー展開できない微分不可能(な領域を含む)関数についても適用可能である

負の２項分布(テイラー展開を利用した例)

$_n￥mathrm{C}_k=￥frac{n!}{k!(n-k)!}=￥frac{n(n-1)(n-2)￥cdots(n-k+1)}{k!}$ は自然数n,kについて定義されているが、今、n,kのうち、nを有理数aとしてやっても、式は成り立つ。これを $￥begin{pmatrix}a ￥￥ k ￥end{pmatrix}$ と表記する。[a=-n]ただし、nは自然数としたとき、『負の２項分布』と呼ばれる。テイラー展開を用いることで、『n回成功するまでにk回の失敗があって、総計n+k回の試行をした場合を考え、そのときの失敗の回数の確率分布が $P_r(x=k)=(-1)^k￥begin{pmatrix}-n ￥￥ k ￥end{pmatrix}$ と表されることが式変換にて示される。

幾何分布は $n=1$ であるような負の２項分布である

ポアソン分布の分散もテイラー展開を用いて式変形できる
確率分布を正規分布やその他の性質のよくわかっている分布に近似することはよく行われる。漸近展開は、解析対象分布関数を、正規分布などの近似使用としている関数とそれ以外の項に分けて展開することで、ある条件下(標本数が十分大きい場合(大数))でどのくらい近似がよいかなどの評価をする際に利用できる



[tex:_n\mathrm{C}_k=\frac{n!}{k!(n-k)!}=\frac{n(n-1)(n-2)\cdots(n-k+1)}{k!}]

[tex:\begin{pmatrix}a \\ k \end{pmatrix}][tex:P_r(x=k)=(-1)^k\begin{pmatrix}-n \\ k \end{pmatrix}]

コメントをいただきました。テイラー展開と漸近展開との関係がわかりにくい記載だ、との指摘なのかと思います。テイラー展開と漸近展開との相互関係については、こちらで。

2005-11-27

積分(駆け足で読む統計学のための数学入門30講 8 9 10 12 13)

統計学

第８講　不定積分
第９講　定積分
第10講　定積分の計算
第11講　ガンマ関数とベータ関数
第12講　数値積分
第13講　広義積分

積分の公式のてふ表記

$￥int x^{￥alpha}￥,dx=￥frac{1}{￥alpha+1}x^{￥alpha+1}+C$

$￥int e^x￥,dx=e^x+C$

$￥int a^x￥,dx=￥frac{1}{￥log{a}}a^x+C$

$￥int ￥frac{1}{x}￥,dx=￥log{|x|}+C$

$￥int ￥sin{x}￥,dx=-￥cos{x}+C$

$￥int ￥cos{x}￥,dx=￥sin{x}+C$

$￥int ￥frac{1}{sin^2{x}}￥,dx=￥tan{x}+C$

$￥int ￥frac{1}{￥sqrt{1-x^2}}￥,dx=￥sin^{-1}{x}+C$

$￥int ￥frac{1}{1+x^2}￥,dx=￥tan^{-1}{x}+C$

確率変数と確率密度関数と積分
- 確率変数とは、確率的に決まる値をとる変数のことである。確率変数のうち、連続的な値をとるものを連続型確率変数という。通常の２次元グラフでは横軸に確率変数の値を、縦軸に対応する確率をとったとき、連続型確率変数では、横軸について連続的な値をとるので、確率を表す曲線は連続である。
- 確率変数xについてその確率密度関数が $f(x)$ で表されたとき、確率を表しているので、 $f(x)￥ge 0$ である、また、xのとりうる範囲(ここでは $-￥infty ￥cdots ￥infty$ としよう、すべての確率変数は、とりうる範囲に制限があるかもしれないが、その場合にもこの定義は一般性を失っていない)について足し合わせるということは、確率の総和であるので、１になる。式で表せば $￥int_{-￥infty}^[￥infty}f(x)￥,dx=1$ である。xがaからbまでを示す確率は $￥int_{a}^{b}f(x)￥,dx$ である。また、累積分布関数とは、xのとりうる最小値からある値aまでの確率であり、 $￥int_{-￥infty}^{a}f(x)￥,dx$ と表される。
- 確率密度関数の定義(下部面積の総和が１)から、式で表される諸関数分布をとる確率密度関数は、そのからの定積分で序した関数が確率密度関数となる
  - 例としては、正規分布の確率密度関数 $f(x)=￥frac{1}{￥sqrt{2￥pi}￥sigma}e^{-￥frac{(w-￥mu)^2}{2￥sigma^2}}$ となる
期待値
- 確率変数xの確率密度関数が $f(x)$ であるとき、期待値は $E(x)=￥int_{-￥infty}^{￥infty}xf(x)￥,dx$ である。分散も、定義に帰って、積分を用いて計算すると、 $V(x)=E(x^2)-(E(x))^2$ になる
数値積分
- ある関数の定積分は、ある区間の面積を求めることであるが、関数によっては、 $￥int_{a}^{b}f(x)￥,dx$ が簡単に求められないこともある(不定積分が求められない)。一方、統計学である確率を知る(＝確率密度関数の区間の面積を知る)ことは必要であり、そのような場合には、近似値でもいいから計算してやることになる。期待値・分散・最小自乗誤差などを計算するにも、定積分を近似で求める必要が出る。区間の面積を近似する方法の１つが、台形の集まりとみなす「台形公式」、それより精度がよい「シンプソンの公式」もある。どちらを用いよ、と書いてくれていないが、おそらく、どちらでもよいのだろう(一定以上細かく区切る限り)。区間が無限な場合には、無視してよい小面積であることを確かめた上で、その部分を切り捨てて、有限区間を設定しなおし、近似する
広義積分
- 定積分を求めるときに区間が無限のときには、有限区間の極限が存在するときに、それを無限区間の定積分の値をするとき、このような定積分を広義積分と呼ぶ。 $￥int_{a}^{￥infty}f(x)￥,dx=￥lim_{M￥to￥infty}￥int_{a}^{M}f(x)￥,dx$
- 定積分を求めるにあたり、不定積分が求められず、数値計算で定積分を求めようとする場合(近似的な計算)で、区間が無限のときには、そもそも、その広義積分が存在していることを確かめてから計算することが必要である。したがって、広義積分があるかないかの判定方法が利用されることがある
- 統計学では、無限区間の広義積分の存在を確かめることにより、次のようなことがいえる。自由度 $￥phi$ のカイ自乗分布は $f(x)=￥frac{1}{￥Gamma(￥frac{￥phi}{2})2~{￥frac{￥phi}{2}}x^{￥frac{￥phi}{2}-1}e^{￥frac{-x}{2}}} (x>0)$ これは次項(『ガンマ関数とベータ関数』)でも述べるが、ガンマ関数分布 $G(￥frac{￥phi}{2},￥frac{1}{2})$ の確率密度関数に同じである。 $￥frac{￥phi}{2}>0$ において、ガンマ分布には区間 $(0,￥infty)$ において広義積分が存在することから、すべての自然数である自由度 $￥phi$ について積分が存在することがわかる。同様に正規分布に従うxの $￥frac{1}{x}$ については、 $E(￥frac{1}{x}$ が存在しないが、それは、その広義積分が存在しないことからしめされる。同様にt分布において自由度１のときには、平均と分散が存在しないことを示すこともできて、t分布の場合で、平均が存在するのは、自由度が２以上のとき、分散が存在するのは３以上のときである。



[tex:\int x^{\alpha}\,dx=\frac{1}{\alpha+1}x^{\alpha+1}+C]

[tex:\int e^x\,dx=e^x+C]

[tex:\int a^x\,dx=\frac{1}{\log{a}}a^x+C]

[tex:\int \frac{1}{x}\,dx=\log{|x|}+C]

[tex:\int \sin{x}\,dx=-\cos{x}+C]

[tex:\int \cos{x}\,dx=\sin{x}+C]

[tex:\int \frac{1}{sin^2{x}}\,dx=\tan{x}+C]

[tex:\int \frac{1}{\sqrt{1-x^2}}\,dx=\sin^{-1}{x}+C]

[tex:\int \frac{1}{1+x^2}\,dx=\tan^{-1}{x}+C]

2005-11-27

順列(permutation)と組み合わせ(combination)、階乗、二項分布・多項分布(駆け足で読む統計学のための数学入門30講 3)

統計学

第３講　順列・組合せと二項定理・多項定理

順列
- $_n￥mathrm{P}_x=n(n-1)(n-2)￥cdots(n-x+1)=￥frac{n!}{(n-x)!}$
組み合わせ
- $_n￥mathrm{C}_x=￥frac{_n￥mathrm{P}_x}{x!}=￥frac{n!}{(n-x)!x!}$
２項分布
- $(a+b)^n=￥sum_{k=0}^n_n￥mathrm{C}_ka^kb^{n-k}$
- $a=P,b=1-P$ とし、××である確率が $P$ とするとn個のうちk個が××である確率は $P_r(x=k)=_n￥mathrm{C}_kP^k(1-P)^{n-k}$ と表される。今、xについて0からkまですべてを足し合わせると $￥sum_{k=0}^nP_r(x=k)=1$ となり、これも総和が１の確率分布であり、このような分布を２項分布と呼ぶ
多項分布
２項分布では、××か否か、を $P$ か $1-P$ かに分けたが、今、 $w$ 通りの場合があって、それぞれが起きる確率が $p_i, i=1￥cdots w, ￥sum_{k=1}^wp_k =1$ であるとして、全体で $n=￥sum_{k=1}^wN_k$ あるとすると、その $n$ 個の事象が $N_1,N_2,￥cdots N_w$ となる確率は $P_r(x_1=N_1,x_2=N_2,￥cdots x_w=N_w)=￥frac{n!}{N_1!N_2!￥cdots N_w!}p_1^{N_1}p_2^{N_2}￥cdots p_w^{N_w}}$ と表させる。 $N_1,N_2,￥cdots N_w$ の組み合わせについてすべてを足し合わせると、その総和は１になり、確率分布であることがわかる。このような分布を多項分布という。
期待値・期待値の分散
- ある興味の対象がある値をとるものとし、その値が２項分布や幾何分布のように、あれかこれか(離散的な値)をとるとすると、その離散的な値をとる確率が $P_r(x=k)$ が知られているとすると、xがとりうるすべてのkについて足し合わせると $￥sum_k P_r(x=k)=1$ となる、また、 $￥sum_k kP_r(x=k)$ は、xの値の期待値 $E(x)$ である。２項分布の場合には、xが起きる回数ということで $E(x)=nP$ となることが式変形で示される。分散は $V(x)=￥sum￥{k-E(x)￥}^2P_r(x=k)$ で示せるが、これも式変形で $V(x)=E(x^2)-￥{E(x)￥}^2$ となる
これらのテキスト表記は



[tex:_n\mathrm{P}_x=n(n-1)(n-2)\cdots(n-x+1)=\frac{n!}{(n-x)!}]

[tex:_n\mathrm{C}_x=\frac{_n\mathrm{P}_x}{x!}=\frac{n!}{(n-x)!x!}]

[tex:(a+b)^n=\sum_{k=0}^n_n\mathrm{C}_ka^kb^{n-k}]

[tex:P_r(x_1=N_1,x_2=N_2,\cdots x_w=N_w)=\frac{n!}{N_1!N_2!\cdots N_w!}p_1^{N_1}p_2^{N_2}\cdots p_w^{N_w}}]

2005-11-27

ガンマ関数とベータ関数(駆け足で読む統計学のための数学入門30講 11)

統計学

ガンマ関数とベータ関数は、一見、積分記号と指数関数をひねくって結合したように見えるが、特徴的な性質を持ち、しかもその性質ゆえに、統計学の検定に重要なガンマ分布・カイ自乗分布・ベータ分布・F分布と密接に関係している点で、１講をあてるに足る関数である

ガンマ関数
- その表記: $￥Gamma(x)=￥int_{0}^{￥infty}t^{x-1}e^{-t}￥,dt (x>0)$
- その性質
  - $￥Gamma(x+1)=￥Gamma(x)$ $\times x$ xは正の実数
  - $￥Gamma(1)$ $=1$
  - $￥Gamma(n)=(n-1)!$ nは自然数の場合
  - $￥Gamma(￥frac{1}{2})=￥sqrt{￥pi}$
- ガンマ分布・カイ自乗分布との関連
  - ガンマ分布
    - 確率密度関数 $f(x)=￥frac{￥lambda^{￥alpha}}{￥Gamma(￥alpha)}x^{￥alpha-1}e^{-￥lambda x} (x>0)$ はガンマ分布と呼ばれ、 $G(￥alpha,￥lambda)$ と表す
    - 指数分布はガンマ分布の１形態で $G(1,￥lambda)$ である
    - ガンマ分布の平均(期待値)は $E(x)=￥frac{￥alpha}{￥lambda}$ で、分散は $V(x)=￥frac{￥alpha}{￥lambda^2}$ である
    - 自由度 $￥phi$ のカイ自乗分布の確率密度関数はガンマ分布 $G(￥frac{￥phi}{2},￥frac{1}{2}$ であり、その平均は $E(x)=￥phi$ で分散は $V(x)=2￥phi$ である
ベータ分布
- その表記: $B(x,y)=￥int_{0}^{1}t^{x-1}(1-t)^{y-1}￥,dt (x>0,y>0)$
- その性質
  - $B(x,y)=B(y,x)$
  - $B(x,y)=￥frac{￥Gamma(x)￥Gamma(y)}{￥Gamma{x+y}}$
  - $B(m,n)=￥frac{(m-1)!(n-1)!}{(m+n-1)!}$ (m,nは自然数)
  - ベータ分布・F分布との関連
    - 確率密度関数 $f(x)=￥frac{1}{B(￥alpha,￥beta)}x^{￥alpha-1}(1-x)^{￥beta-1}$ (0<x<1)はベータ分布と呼ばれる</li>
    - ベータ分布の平均(期待値)は $E(x)=￥frac{￥alpha}{￥alpha+￥beta}$ で、分散は $￥frac{￥alpha￥beta}{(￥alpha+￥beta+1)(￥alpha+￥beta)^2}$ である
    - 自由度 $(￥phi_1,￥phi_2)$ のF分布の確率密度関数は $f(x)=￥frac{1}{B(￥frac{￥phi_1}{2},￥frac{￥phi_2}{2})}(￥frac{￥phi_1}{￥phi_2})^{￥frac{￥phi_1}{2}}x^{￥frac{￥phi_1}{2}-1}(1+￥frac{￥phi_1 x}{￥phi_2})^{-￥frac{￥phi_1+￥phi_2}{2}} (x>0)$ となるが、 $x=￥frac{y}{(￥frac{￥phi_1}{￥phi_2})(1-y)^2}$ なるyについて、yは $B_e(￥frac{￥phi_1}{2},￥frac{￥phi_2}{2})$ に従う( $B_e$ はベータ関数)



[tex:\Gamma(x)=\int_{0}^{\infty}t^{x-1}e^{-t}\,dt (x>0)]

[tex:\Gamma(x+1)=\Gamma(x)]

[tex:\Gamma(1)=\Gamma(1)]

[tex:\Gamma(n)=(n-1)!] 

[tex:\Gamma(\frac{1}{2})=\sqrt{\pi}]

[tex:f(x)=\frac{\lambda^{\alpha}}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x} (x>0)][tex:G(\alpha,\lambda)]

[tex:G(1,\lambda)]

[tex:E(x)=\frac{\alpha}{\lambda}]

[tex:V(x)=\frac{\alpha}{\lambda^2}][tex:G(\frac{\phi}{2},\frac{1}{2}][tex:E(x)=\phi][tex:V(x)=2\phi]