クラスタ解析
高次元データは、データベクトル間の距離の短いものをまとめるというクラスタリングの基本において、不適切な結果へ導きやすくするという問題を持つ。これを解決するために、データベクトルの特性を失わずに次元を小さくすることが効果的であり、それを次元…
データをグラフのノードとし、データ間の類似度をエッジで表現する。このとき、クラスタリングは、グラフからエッジを取り去り(cut)、いくつかの部分グラフに分ける作業にあたる。クラスタリングの評価は、取り去るエッジが少なく、残った部分グラフが密であ…
データの背景に複数のモデルがあり、そのモデルのいずれかによって、観測データのそれぞれは得られ、観測における誤差によって、全データの分布が説明できるとみなす 個々のモデルを、期待値ベクトルで表し、そこからの誤差を多次元正規分布によって近似する…
クラスタ数 k を与える k個のクラスタの中心を仮に与え、データ点を、一番近い中心のクラスタに帰属させる k個のクラスタ中心を帰属した点の重心として再定義し、データ点の帰属クラスタを再定義する 全データ点の帰属クラスタが変わらなくなるまで繰り返す …
Rで学ぶクラスタ解析作者: 新納浩幸出版社/メーカー: オーム社発売日: 2007/11/01メディア: 単行本購入: 9人 クリック: 207回この商品を含むブログ (29件) を見る
全要素を別個のクラスタとした段階から、クラスタ間の距離がもっとも近い2つのクラスタを1つのクラスタとみなす、という処理を繰り返し、最終的に1つのクラスタに纏め上げ、その過程で作ったクラスタの包含関係をクラスタ構造の全体とする手法 クラスタ間…
データのベクトル化と重み付け TF*IDF(term frequency-inverse document frequency) public static double[][] tfidf(double[][] vs, int type){ /* * type=0 log(N/n) * type=1 log((N+1)/n) */ double[][] ret = new double[vs.length][vs[0].length]; int…
クラスタリング手法の分類 階層的手法と非階層的手法 ソフトクラスタリング手法とハードクラスタリング手法 クラスタリング結果の評価方法 F値 エントロピー 純度 精度 クロス表の作成 > a<-c(1,2,3,1,2,3,1,2,3) > b<-c(1,1,2,2,1,1,3,3,2) > t<-table(a,b)…
Rが得意とするベクトルと行列というデータ形式に特化した短い記載だが、非常によくまとまっている > (a<-matrix(c(1:30),nrow=5,byrow=TRUE)) [,1] [,2] [,3] [,4] [,5] [,6] [1,] 1 2 3 4 5 6 [2,] 7 8 9 10 11 12 [3,] 13 14 15 16 17 18 [4,] 19 20 21 22…