駆け足で読むRで学ぶクラスタ解析第８章　次元縮約

駆け足で読むシリーズクラスタ解析

高次元データは、データベクトル間の距離の短いものをまとめるというクラスタリングの基本において、不適切な結果へ導きやすくするという問題を持つ。これを解決するために、データベクトルの特性を失わずに次元を小さくすることが効果的であり、それを次元…

2008-04-26

駆け足で読むRで学ぶクラスタ解析第７章　スペクトラルクラスタリンググラフ分割としてのクラスタリング

駆け足で読むシリーズクラスタ解析

データをグラフのノードとし、データ間の類似度をエッジで表現する。このとき、クラスタリングは、グラフからエッジを取り去り(cut)、いくつかの部分グラフに分ける作業にあたる。クラスタリングの評価は、取り去るエッジが少なく、残った部分グラフが密であ…

2008-04-26

駆け足で読むRで学ぶクラスタ解析第６章　混合分布モデル EMアルゴリズム

駆け足で読むシリーズクラスタ解析

データの背景に複数のモデルがあり、そのモデルのいずれかによって、観測データのそれぞれは得られ、観測における誤差によって、全データの分布が説明できるとみなす個々のモデルを、期待値ベクトルで表し、そこからの誤差を多次元正規分布によって近似する…

2008-04-26

駆け足で読むRで学ぶクラスタ解析第５章　k-means 非階層的手法

駆け足で読むシリーズクラスタ解析

クラスタ数 k を与える k個のクラスタの中心を仮に与え、データ点を、一番近い中心のクラスタに帰属させる k個のクラスタ中心を帰属した点の重心として再定義し、データ点の帰属クラスタを再定義する全データ点の帰属クラスタが変わらなくなるまで繰り返す …

2008-04-26

駆け足で読むRで学ぶクラスタ解析

駆け足で読むシリーズクラスタ解析教科書

Rで学ぶクラスタ解析作者: 新納浩幸出版社/メーカー: オーム社発売日: 2007/11/01メディア: 単行本購入: 9人クリック: 207回この商品を含むブログ (29件) を見る

2008-04-26

駆け足で読むRで学ぶクラスタ解析第４章　階層的手法

駆け足で読むシリーズクラスタ解析

全要素を別個のクラスタとした段階から、クラスタ間の距離がもっとも近い２つのクラスタを１つのクラスタとみなす、という処理を繰り返し、最終的に１つのクラスタに纏め上げ、その過程で作ったクラスタの包含関係をクラスタ構造の全体とする手法クラスタ間…

2008-04-26

駆け足で読むRで学ぶクラスタ解析第３章　クラスタリングの準備

駆け足で読むシリーズクラスタ解析

データのベクトル化と重み付け TF*IDF(term frequency-inverse document frequency) public static double[][] tfidf(double[][] vs, int type){ /* * type=0 log(N/n) * type=1 log((N+1)/n) */ double[][] ret = new double[vs.length][vs[0].length]; int…

2008-04-26

駆け足で読むRで学ぶクラスタ解析第２章　クラスタリング入門

駆け足で読むシリーズクラスタ解析

クラスタリング手法の分類階層的手法と非階層的手法ソフトクラスタリング手法とハードクラスタリング手法クラスタリング結果の評価方法 F値エントロピー純度精度クロス表の作成 > a<-c(1,2,3,1,2,3,1,2,3) > b<-c(1,1,2,2,1,1,3,3,2) > t<-table(a,b)…

2008-04-26

駆け足で読むRで学ぶクラスタ解析第１章　Rの準備

駆け足で読むシリーズクラスタ解析

Rが得意とするベクトルと行列というデータ形式に特化した短い記載だが、非常によくまとまっている > (a<-matrix(c(1:30),nrow=5,byrow=TRUE)) [,1] [,2] [,3] [,4] [,5] [,6] [1,] 1 2 3 4 5 6 [2,] 7 8 9 10 11 12 [3,] 13 14 15 16 17 18 [4,] 19 20 21 22…