3.閾値モデル 駆け足で読む極値統計



  • 観測データから極値の分布を表す関数を推定することを前提に、以下の論議がなされる
  • 閾値超過分布
    • ある期間やあるブロックの最大値だけを取り出す極値統計解析の手法は、せっかくのデータを使用しないこととなり、もったいない。そのもったいなさから、ある一定閾値を越えるデータを用いる方法が発達してきた。それを閾値モデルと呼ばれる方法である
    • ある閾値を越えた部分の分布(閾値超過分布)はFがわかるとき、以下のように与えられる
    • 独立同一分布(iid: independently identically distributed) Fについて
      • Pr¥{X>u+y|X>u¥}=¥frac{Pr¥{X>u+y,X>u¥}}{Pr¥{X>u¥}}から
      • Pr¥{X>u+y|X>u¥}=¥frac{1-F(u+y)}{1-F(u)}
  • 閾値超過分布と一般化パレート分布と極値分布
    • 最大値分布が一般化極値分布に近似できるとき、閾値超過分布は対応した一般化パレート分布を有する
    • また、閾値を超過した一般化パレート分布の母数は、関連した一般化極値分布によって一意に決定できる
  • 一般化パレート分布
    • H(y)=1-(1+¥frac{¥zeta y}{¥widetilde{¥sigma}})^{-¥frac{1}{¥zeta}}
      • y>0,(1+¥frac{¥zeta y}{¥widetilde{¥sigma}})>0
      • ¥widetilde{¥sigma}=¥sigma + ¥zeta(u-¥mu)
    • 一般化極値分布G(x)=EXP(-(1+¥zeta(¥frac{x-¥mu}{¥sigma})^{-¥frac{1}{¥zeta}})についてある閾値uがあり、その閾値超過分布を近似する分布として与えられるのが上に表現された一般化パレート分布である
    • 一般化パレート分布の母数¥zetaはそれに対応する一般化極値分布のそれと一致する
    • ¥zeta=0の場合には、一般化パレート分布はH(y)=1-EXP(-¥frac{y}{¥widetilde{¥sigma}})となり、指数分布に一致する。このことは経験則をよく表す
  • このあたりから、「あてはめ」「あてはまりのよさ」「よりよいあてはまり」を目指した工夫、という色合いが出てくる
    • 活用データを選別するための閾値設定での留意
      • 少なすぎると推定される母数が不安定。多すぎると、「極値」の代表といえなくなり、推定が悪くなる
      • ある意味で、試行錯誤
        • 閾値を与えて、母数推定をして、あてはまりのよさを確認する。「再現レベル」による評価。プロットを『見て』のモデルの妥当性の確認