2013-06-01から1ヶ月間の記事一覧

木の上の分布比較

ルートのある2分岐木状の分布があるとする。その分布は、ノード数がnで(エッジ数がn-1)。すべてのサンプルで木のトポロジーは同じとする 各ノードに確率があって、であるという また、各エッジには長さがあるという サンプルことにが異なるときに、これをど…

木の上の分布の比較

復習する:検定・推定・情報量・エントロピー・分布間距離

セミナースライド(こちら) 色々な観測量があって、統合して解析したい(オミックス層のデータ構成) データ構成の組み合わせはいろいろ 独立・関連、情報 分割表の場合 分散分析と分散と情報量 線形解析は、「遠近両用」 非線形解析は、「近のみ重用」 「近の…

Earth Mover's distanceのR計算その2

library(emdist) my.emd <- function(A,B,r=100){ tandem.AB <- c(A,B) # そのtop 100をカットオフとする s.t.AB <- sort(tandem.AB,decreasing = TRUE) #cutoff <- s.t.AB[floor(length(tandem.AB)*r)] cutoff <- s.t.AB[r] # カットオフ以上の値の番地をと…

Earth Mover's distanceのR計算

2次元の分布としてのメタボロームデータのことをやっている EMdist,Wass...についてはこちらを そのほかとしてはTransportation problemであって、その解法はハンガリアンメソッドだという ハンガリアンメソッドは(重み付き)割り当てマッチング(こちら)でも…

n次元のx軸 vs. m次元のy軸で関連の有無を検定する?

メモソース library(FNN) # X is a matrix or a list. # In case of matrix, each row of X represents a sample and a row vector is a point in the dimensional space. The function returns a distance matrix with specifeid distance measure ("method…

骨軟骨破壊〜微分積分〜時系列・クロスセクション

関節リウマチの骨軟骨破壊を表現型として定量的に捕捉するための情報収集 Bone erosion に関するレビュー RAを含む疾患での骨粗鬆症 生物学的製剤の影響 骨破壊のメディエータ リモデリング 軟骨破壊の画像的側面 骨軟骨破壊のバイオマーカー 滑液中のバイオ…

エントロピーベースで分布の差異の関連検定〜続き

説明変数群が空間上の点であって、目的変数が分布であるようなときのことを考える 「近い」ことのみを活用する 分布のエントロピーを推定するときに、度数分布を使って局所濃度の推定を介して行う方法がある(次元が大きいとうまくいかないこともあり、現実的…

エントロピーベースで分布の差異の関連検定

昨日のさらに続き このやり方で本当にいいかは未確定 0/1の説明変数があるとする 目的変数は2次元の点座標のデータ 目的変数を20標本分プロットした。説明変数の2群を黒点プロットと赤点プロットで分けた このプロットの心:原点を中心に2次元正規分布す…

エントロピーで関連

昨日のさらに続き 2軸でいわゆる相関係数を取る場合と、エントロピーとを見る場合とで、どんな違いが出るかを、 にあるような例でやってみよう この絵はWikipediaのCorrelationの例の図 上段は傾き45度でばらつきを変えている 中段はばらつきは同じで傾きを…

整理整頓

昨日までに何回か、共通項のある話を書いている 話が発散しているので、改めて、整理整頓 名義カテゴリの場合、それらの「位置」は正単体の頂点座標〜すべてのカテゴリ間の距離は等しい 1次元の量的分布で一峰性(しかも対称性)の場合、値が近いものは近く…

多峰性分布間の比較での分散分析とKL距離

多峰性分布間の比較での分散分析とKL距離

こちらの続き 分散がエントロピーと関係があることや、群内分散と群間分散とへの分解が分散分析であること、分散をエントロピーの代わりとすることは正規分布を仮定していることなどを書いてきた 正規分布とは違う分布として、多峰性の分布を取り上げる。多…

カテゴリ分類

こちらでフローサイトメトリーデータの木構造・クラスタリング・視覚化の話を書いた マルチマーカー・フローサイトメトリーで血球の分化を木構造化するはなし 一般に免疫学で血球をフローサイトメトリー解析するときには、n種のマーカーの発現パターンをバイ…

検定・推定・情報量・エントロピー(続き)

こちらの続き 線形回帰と分散分析とで順序関係が等しくなる統計量のことをやっていた 1元配置分散分析で2群のときは、線形回帰そのものだった 1元配置分散分析で3以上の群のときは群内分散・群間分散の割り振り具合と群の数(もしくはそれより1つ少ない…

tSNE

こちらで多次元のcloud dataを可視化するcytoSPADEのことを書いた 今日は多様体学習で2次元埋め込みをするtSNEを 資料はこちら 基本処理 データ点が多くない場合は全データ点を用いる 高次元空間でのペアワイズな点間距離を、観測データから定める 2次元(…

検定・推定・情報量・エントロピー

こちら(ヒストグラムと情報量)の続き これは、ヒストグラムを推定分布とみなして、その分布の情報量のこと、それと分割表の独立を仮定した生起確率・独立性検定統計量のことをメモした記事 最大エントロピー原理(Wiki)の記事にあるように「情報を得る前」の…

フローサイトメータデータの解析

cytoSPADEのサイト nature_biotechnology論文 bioconductorサイト cytoSPADEのステップ 1. Density-dependent down-sampling to equalize the density in the point cloud of cells(FACSデータの点の数は多すぎる) 2. クラスターに分ける。Agglomerative clu…

cytoSPADE

データの構成

ゲノム 染色体単位の塩基配列 染色体配列: ハプロイド: ディプロイド:ただし、ここで父由来・母由来を区別しているが、区別しないで丸めることも多い 遺伝子単位の塩基配列(ただし、ここでの遺伝子の定義は、DNA配列であって、ゲノム上の特定の連続する範…

ぱらぱらめくる『脳のなかの天使』

脳のなかの天使作者: V・S・ラマチャンドラン,山下篤子出版社/メーカー: 角川書店(角川グループパブリッシング)発売日: 2013/03/23メディア: 単行本この商品を含むブログ (19件) を見る はじめに〜ただの類人猿ではない 部品は同じだが、個数の影響は非線形…

GC-MSのアラインメント

論文 Combining peak- and chromatogram-based retention time alignment algorithms for multiple chromatography-mass spectrometry datasets GC-MSは2次元データ。その実験を複数やると、シグナルピークの出現位置に実験間のずれが出るので、結果の比較…

ヒストグラムと情報量推定

昨日の記事で分割表の生起確率と情報量との関係、2つの変数が生起するときの確率密度分布の情報量と2つの変数の非独立性の話を書いた じゃあ、多変量の確率密度分布があると、その情報量は、構成変数間(変数のセットの間でもよい)の非独立性の指標になるこ…

ヒストグラムと情報量

極限まで分割する

2x2表があるとき、その生起確率は。周辺度数が固定しているときに比例している 2つの1次元確率密度分布があるとする。2つの分布に従って生起する事象のペアがあるとする。ペアになる事象が独立であるかそうでないかを考える。独立でない場合には、「偏…

雑音排除

A Novel Preprocessing Method Using Hilbert Huang Transform for MALDI-TOF and SELDI-TOF Mass Spectrometry Data Hilbert-Huang概説PDF Wiki記事 大解説 Rパッケージ EMD hht