2次元空間データの記述統計

  • データは1次元空間にある複数の0次元多様体の2次元座標情報
  • 背景にあると思っている、そして思い描きたいのは、2次元空間の点に(0以上の正の)値を与えて定まるもので、それは3次元空間に曲面として描かれる2次元多様体
  • この2次元多様体には、(比較的よく使う場合として)確率密度分布に相当するものがある。1次元の場合によく使う累積密度分布は普通の意味では取れないのだが、どうしてもできなのかどうかはわからないので、いまのところは保留にしておく
  • 2次元空間データの記述統計は、この3次元空間上の2次元多様体に関する、スカラー値、スカラー値のセット、スカラーの値のペア・スカラーの値のトリオ、またペアのセット・トリオのセット、と言ったところだろう。さらにまた、スカラー値、スカラー値のペア・トリオが0次元多様体であるとして(次元数が足りないときは、数直線軸や平面に張り付いているものと考える)、1次元多様体や2次元多様体を「記述統計量」の構成要素として、そのセットを考えることもできる
  • k次元多様体を「記述統計量」とするには、「k次元多様体を把握できる視覚系」が必要。そんな感じで展開したい
  • 系列で考えてみる
    • 平均値・モーメント系列
      • 平均は「重心」
      • モーメントは「重心」の周りに定義できている
      • 分布の峰の数には(少なくとも比較的)無関心
    • 中央値・クオンタイル系列
      • 特定の順序づけルールがあれば、それに関する中央値が定まるのは問題ない。中央を「順序」に依存したものとみなすということになる。そのような「中央2次元座標」が複数の順序づけルールについて一つに決まるのであれば、それが「中央」
      • 2次元空間における「順序」とは(連続なそれならば)、等高線を引くということで、それによってクオンタイル値が等しい場所は等高線という1次元多様体に相当してくる
      • 原理的には可能だが、利用は難しそう
    • 最頻値・峰・谷・勾配・極値・変曲点の系列
      • (峰の)位置のセット
      • (峰の)位置とその重みを合わせた代表値、とそのセット
      • 峰についての情報だけであると、クラスタの代表値(位置)とその(相対的大きさ(峰の空間的広がりとしての大きさではなく、峰に帰属する要素数を表すもの(と思っている))
      • 離散的な0次元多様体の位置情報の集合から、峰の位置をどうやって推定するか
      • そのうえで、1次元空間の場合と異なるのは、一次元空間では峰の位置が決まると、峰の間にはそこを結ぶ線があるだけだが、2次元空間では、峰と峰との間をどのように結ぶかの情報が与えられていないこと、峰と峰の結び方は1次元多様体であって、推定の対象・情報を与えることに意義がある対象であること
  • 主な特徴となる多様体の次元
    • 0次元多様体(峰とその反対である底)である場合が上述
    • 1次元多様体がそれであることもある。それは、曲線が「馬の背」のようになっている場合
    • 同様に2次元多様体がそれであることもある。
    • ありとあらゆる曲線的線分(1次元多様体)、平面的多様体(凸多角形、円、楕円…)を対象にすると大変そう。では、線分は直線線分(1次元の円)とし、平面的多様体は円(2次元の円)とするのもありだろう