推定。パラとノンパラ

  • 混交正規分布が背景にあるとする
  • パラメトリックに、単純な正規分布を仮定して、推定すると、サンプル数を増やしても、推定結果は1峰性の正規分布であり、背景分布の平均(期待値)と分散は正確になるが、混合正規分布の特徴である複数峰は決して推定されない。
  • また、期待値と分散の推定値は、散布する数が少ないときから安定して、よい値が推定される
  • この、サンプル数が少ないときから、(モデルとしては不十分ながら)推定結果がよいことを、推定のバリアンス(ばらつき)が小さく収まるという
  • その一方で、サンプル数をどんなに増やしても、真の分布である複数峰には近づかないことを、「モデルが真からずれている」から「推定結果もずれざるを得ない」と言う意味で、バイアスが大きい推定になっている、と言う
  • 他方、ガウシアン・カーネルによる密度推定では、個々のサンプルに小さな正規分布を担わせ、それらの加算として、全体の密度分布を推定させる。したがって、サンプル数が大きくなればなるほど、たくさんの小正規分布の和として分布推定される。使用するパラメタ数が大きくなるともいえる
  • この、サンプル数が増えれば増えるほど、分布を説明するパラメタ数が大きくなる推定法であることを「ノンパラメトリックな推定手法」である、と言う。
  • しかしながら、個々のサンプルに担わせる小さな正規分布をどんなものにするかに選択の余地があり、その選び方で結果が変わる。ガウシアンカーネル法の場合には、平均は観測値そのものとするとして、分散をどうするかは選ばないといけない
  • その分散を大きくしすぎると、背景分布の細かい多峰性は表現できないし、分散を小さくしすぎると、全体の様相をつかみ損ねて、標本依存性が上がる。この標本依存性が上がってしまうことを、オーバーフィッティングと言ったり、推定のバリアンスが大きいと言ったりする
  • しかしながら、パラメトリックな手法の際に、バイアスは大きくてもよいからバリアンスを小さく維持することに成功したことの裏返しで、バリアンスは大きくなるが、バイアスは小さくできる。したがって、標本数が大きいときには、標本数がバリアンスを押しとどめてくれるので、バイアスの小さい、真の分布に近いものを得うる、という可能性をもつ
  • 以下のRコードは、4峰性の1次元混合正規分布に対して、単純な1峰性正規分布推定をパラメトリックな推定法の代表として用い、ガウシアンカーネル法をノンパラメトリックな手法として用いつつ、ガウシアンカーネルの個別分布の分散に大小2つを採用することで、サンプル数の多寡による推定分布の変化の様子を見ている
  • Nが小さくても大きくても、1峰パラメトリック推定(赤)は大して変わらない・・・バリアンスが小さい
  • Nが小さいときと大きいときでも、緑の推定(ガウシアンカーネルで分散が大きめ)は滑らかな推定分布であるが、方や、中央付近に大きな1峰、方や、中央付近に2峰の可能性の萌芽が見える
  • 分散の小さいガウシアンカーネルの場合は、Nが小さくても、大きくても、中央付近にシャープな2峰が推定できている点では、よい推定だが、Nが小さいときに、左右の裾領域に複数の峰が現れており、真分布に合致せず、標本に引きずられている様子が見える(バリアンスが高い)

f:id:ryamada22:20200218100609j:plain