1次元データの代表値

  • 一次元空間上に複数(n個)のレコードがあるとき、大きく分けて、平均値・中央値・最頻値を考えることが多い
    • 1峰性の分布の場合のこと
      • 平均値とその系列の代表値には、平均値・分散・歪度・尖度、一般化して(平均値の周りの)モーメント
      • 中央値とその系列の代表値には、中央値、クオンタイル値、最小値・最大値
      • 最頻値とその系列の代表値には、(高さを問題にしているから)確率密度、等高線、傾き、変曲点、(n階)微分
      • 密度分布・累積分布でいえば、平均値系列は密度で重みづけした平均値・モーメント値、中央値系列は、累積分布の縦軸値から横軸値を取り出すこと、最頻値系列は密度分布の特徴・累積分布の傾きの特徴。「期待される値」
    • クオンタイル値系列(中央値は0.5のクオンタイル値)の場合、0,1/(n-1),2/(n-2),...(n-2)/(n-1),(n-1)/(n-1)=1のそれぞれの値をとると、それ以上は情報が増えない
> xxxx
[1] 0.2251436 0.2487163 0.7042602 0.5266103 0.7965573
> quantile(xxxx,seq(from=0,to=1,length=length(xxxx)))
       0%       25%       50%       75%      100% 
0.2251436 0.2487163 0.5266103 0.7042602 0.7965573 
    • 平均値・分散・モーメントの系列の場合、平均値、平均値の回りの2,3,4,...モーメントを取ると、n次モーメントまでで情報は打ち止め
my.mom <- function(x,n){
	m <- mean(x)
	if(n==1){
		return(m)
	}else{
		ret <- c(m,rep(0,n-1))
		for(i in 2:n){
			ret[i] <- sum((x-m)^n)/length(x)
		}
		return(ret)
	}
}

my.mom(xxxx,length(xxxx))