2013-05-26

１次元空間データの記述統計

記述統計視覚多次元

こちらで多次元視覚ということをやっている
そんな考え方で記述統計について考え直してみる
一次元空間上に複数(n個)のレコードがあって、分布を考えているとする
- １つのスカラー値で分布について情報を取るとする
  - 代表値(平均値・中央値・最頻値など)(関連記述)
  - １次元空間における、その空間数直線上の１つの値とは、０次元多様体
  - n個のレコード(nx1個のスカラー値)から、１個の０次元多様体に対応付けている
- ２つ以上のスカラー値で分布について情報を取るとする
  - 代表値とその系列の場合
    - 第１の代表値が平均値であるなら、その系列として分散・歪度・尖度…、モーメントのシリーズを、中央値ならばその系列としてクオンタイル値のシリーズを、最頻値その系列として密度等高線に関するシリーズもしくは密度分布の傾きに関するシリーズ(極値・変曲点など)を。
    - 平均値系列の場合には、峰の数に関しては(ほとんど)無頓着
    - 中央値系列では、値を増やすと累積密度分布の精度が上がるので、その累積分布の変曲点が峰数についての情報をもたらす
    - 最頻値系列では、系列の取り方にもよるが、極値を与える値を取っていくのであれば、それは峰(と谷)に関する情報を与える
  - 峰数に主眼を置くとき
    - 峰は密度分布の極大値を与えるところであるので、既述のように最頻値系列が相当する
    - 峰の位置をスカラー値で表すとすると、k個の峰の位置を表現するのにk個の値が必要である。k個の峰の位置を表すスカラー値が与えられたとき、得られる情報は、k箇所に同一密度である、という情報であろう。k個の峰の位置に順序があれば、その順序に応じて何らかの(デフォルトの)重みを想定することは可能だろう。もしk個の峰の寄与程度という重みの情報を持たせたければ、k個について位置と重みの２個のスカラー値を与える必要が出る。では、k1ｘ2個のスカラー値で重みつきの情報を与えるのと、k2個のスカラー値で重みなしの情報を与えるのとでは、どちらが、より多くの情報を与えていることになるのだろうか？
    - ちなみに、レコードを複数の峰のいずれかに帰属させる作業は「クラスタリング」
少し整理しよう
- データは１次元空間にある複数の０次元多様体の座標情報
- 背景にあると思っている、そして思い描きたいのは、１次元空間の点に(０以上の正の)値を与えて定まるもので、それは２次元空間に曲線として描かれる１次元多様体
- この１次元多様体には、(比較的よく使う場合として)確率密度分布に相当するものと、累積密度分布に相当するものとの２つがある
- 記述統計は、この２次元空間上の１次元多様体に関して１次元座標、１次元座標の集合、２次元座標、２次元座標の集合、という形であったり、多様体の微分・積分だったり、多様体を変形したものの微分・積分だったりする
  - 中央値は、累積密度分布におけるy=0.5に対応するxの値。最頻値は、確率密度分布における、最大値を与えるxの値。平均値は確率密度分布の関数をf(x)として $\int x f(x) dx$ の値
  - 中央値系列であるクオンタイル情報は累積密度分布に相当する複数の(x,y)座標の集合
  - 最頻値系列であるピークのx座標情報は(x1,x2,...)というx座標の集合で、それに重みをつければ(x,y)座標の集合
  - 最頻値系列として、同一頻度のx座標を与えることは、特定のy座標に相当するx座標の集合を与えることである。見方によっては、２次元空間に特定のy座標に水平線分(単純な１次元多様体)を配置している、というようにも見える
２次元に行ってみよう(こちら)