t-SNEのt-分布

  • 次元削減の1手法のtSNE
  • 高次元の標本間の遠近情報を
    • ある点を中心として別の点が観察される確率として評価する
    • その確率を、観測標本全体で重み付き標準化する
    • さらに、その標準化確率行列が非対称なので対称化する
  • 低次元に埋め込むとき
    • 全く同様に低次元での対称化標準化確率行列をもたらす低次元座標を推定してもよいが
    • それをやると、それほどよい視覚化結果にならない
    • 低次元空間が狭いから
    • それを解決するために、裾野が広い分布(t-分布)を使うのがt-SNEのt
    • 裾野が広い分布は、狭い空間の遠い場所に標本を配置する確率を上げてくれるので、高次元の広々スペースを低次元に押し込めるときの場所の確保法として適当
  • 実際のtSNE低次元座標推定では、実利をとるためにいくつかのアルゴリズム上の工夫がされている
  • 参考:こちら
  • Rで書いて手続きを整理したのが以下のRmdフォーマットファイル