1次元空間データの記述統計
- こちらで多次元視覚ということをやっている
- そんな考え方で記述統計について考え直してみる
- 一次元空間上に複数(n個)のレコードがあって、分布を考えているとする
- 1つのスカラー値で分布について情報を取るとする
- 2つ以上のスカラー値で分布について情報を取るとする
- 代表値とその系列の場合
- 峰数に主眼を置くとき
- 峰は密度分布の極大値を与えるところであるので、既述のように最頻値系列が相当する
- 峰の位置をスカラー値で表すとすると、k個の峰の位置を表現するのにk個の値が必要である。k個の峰の位置を表すスカラー値が与えられたとき、得られる情報は、k箇所に同一密度である、という情報であろう。k個の峰の位置に順序があれば、その順序に応じて何らかの(デフォルトの)重みを想定することは可能だろう。もしk個の峰の寄与程度という重みの情報を持たせたければ、k個について位置と重みの2個のスカラー値を与える必要が出る。では、k1x2個のスカラー値で重みつきの情報を与えるのと、k2個のスカラー値で重みなしの情報を与えるのとでは、どちらが、より多くの情報を与えていることになるのだろうか?
- ちなみに、レコードを複数の峰のいずれかに帰属させる作業は「クラスタリング」
- 少し整理しよう
- データは1次元空間にある複数の0次元多様体の座標情報
- 背景にあると思っている、そして思い描きたいのは、1次元空間の点に(0以上の正の)値を与えて定まるもので、それは2次元空間に曲線として描かれる1次元多様体
- この1次元多様体には、(比較的よく使う場合として)確率密度分布に相当するものと、累積密度分布に相当するものとの2つがある
- 記述統計は、この2次元空間上の1次元多様体に関して1次元座標、1次元座標の集合、2次元座標、2次元座標の集合、という形であったり、多様体の微分・積分だったり、多様体を変形したものの微分・積分だったりする
- 中央値は、累積密度分布におけるy=0.5に対応するxの値。最頻値は、確率密度分布における、最大値を与えるxの値。平均値は確率密度分布の関数をf(x)として∫xf(x)dxの値
- 中央値系列であるクオンタイル情報は累積密度分布に相当する複数の(x,y)座標の集合
- 最頻値系列であるピークのx座標情報は(x1,x2,...)というx座標の集合で、それに重みをつければ(x,y)座標の集合
- 最頻値系列として、同一頻度のx座標を与えることは、特定のy座標に相当するx座標の集合を与えることである。見方によっては、2次元空間に特定のy座標に水平線分(単純な1次元多様体)を配置している、というようにも見える
- 2次元に行ってみよう(こちら)