クラスタ解析

駆け足で読むRで学ぶクラスタ解析 第8章 次元縮約

高次元データは、データベクトル間の距離の短いものをまとめるというクラスタリングの基本において、不適切な結果へ導きやすくするという問題を持つ。これを解決するために、データベクトルの特性を失わずに次元を小さくすることが効果的であり、それを次元…

駆け足で読むRで学ぶクラスタ解析 第7章 スペクトラルクラスタリング グラフ分割としてのクラスタリング

データをグラフのノードとし、データ間の類似度をエッジで表現する。このとき、クラスタリングは、グラフからエッジを取り去り(cut)、いくつかの部分グラフに分ける作業にあたる。クラスタリングの評価は、取り去るエッジが少なく、残った部分グラフが密であ…

駆け足で読むRで学ぶクラスタ解析 第6章 混合分布モデル EMアルゴリズム

データの背景に複数のモデルがあり、そのモデルのいずれかによって、観測データのそれぞれは得られ、観測における誤差によって、全データの分布が説明できるとみなす 個々のモデルを、期待値ベクトルで表し、そこからの誤差を多次元正規分布によって近似する…

駆け足で読むRで学ぶクラスタ解析 第5章 k-means 非階層的手法

クラスタ数 k を与える k個のクラスタの中心を仮に与え、データ点を、一番近い中心のクラスタに帰属させる k個のクラスタ中心を帰属した点の重心として再定義し、データ点の帰属クラスタを再定義する 全データ点の帰属クラスタが変わらなくなるまで繰り返す …

駆け足で読むRで学ぶクラスタ解析

Rで学ぶクラスタ解析作者: 新納浩幸出版社/メーカー: オーム社発売日: 2007/11/01メディア: 単行本購入: 9人 クリック: 207回この商品を含むブログ (29件) を見る

駆け足で読むRで学ぶクラスタ解析 第4章 階層的手法

全要素を別個のクラスタとした段階から、クラスタ間の距離がもっとも近い2つのクラスタを1つのクラスタとみなす、という処理を繰り返し、最終的に1つのクラスタに纏め上げ、その過程で作ったクラスタの包含関係をクラスタ構造の全体とする手法 クラスタ間…

駆け足で読むRで学ぶクラスタ解析 第3章 クラスタリングの準備

データのベクトル化と重み付け TF*IDF(term frequency-inverse document frequency) public static double[][] tfidf(double[][] vs, int type){ /* * type=0 log(N/n) * type=1 log((N+1)/n) */ double[][] ret = new double[vs.length][vs[0].length]; int…

駆け足で読むRで学ぶクラスタ解析 第2章 クラスタリング入門

クラスタリング手法の分類 階層的手法と非階層的手法 ソフトクラスタリング手法とハードクラスタリング手法 クラスタリング結果の評価方法 F値 エントロピー 純度 精度 クロス表の作成 > a<-c(1,2,3,1,2,3,1,2,3) > b<-c(1,1,2,2,1,1,3,3,2) > t<-table(a,b)…

駆け足で読むRで学ぶクラスタ解析 第1章 Rの準備

Rが得意とするベクトルと行列というデータ形式に特化した短い記載だが、非常によくまとまっている > (a<-matrix(c(1:30),nrow=5,byrow=TRUE)) [,1] [,2] [,3] [,4] [,5] [,6] [1,] 1 2 3 4 5 6 [2,] 7 8 9 10 11 12 [3,] 13 14 15 16 17 18 [4,] 19 20 21 22…