2013-05-01から1ヶ月間の記事一覧
昨日の続き 2つの多様体があって、それぞれが確率密度分布(のようなもの)であるとき その2つの多様体が独立であるときには、2つの多様体の同時確率密度分布に相当する多様体は、もとの2つの多様体の次元がm1,m2であったとして、m1 x m2 そしてその疎密は…
たとえば、説明変数が数直線、従属変数がそれに対応する三角関数の値になっていると、説明・従属の両変数の関係は、周期的 周期が短くなると多くの観測点が必要となるのは想像がつくが、それはどれくらい?というのを観測に誤差がまったくないものとして、調…
説明変数群と従属変数群とがそれぞれ多様体であるとする。この2つに相関があるというのは、同相なこと(?) 相関がくずれるというのは、2つの多様体を合わせたときに多様体の次元が上がってしまうこと(?) ここをうまく決めると、そこにパラとノンパラ(…
記述統計量の系統 モーメント→〇、ただし、クラスタリング的発想はできない クオンタイル→× or △ 最頻値・微分→〇。本命 多様体次元 0次元 1次元 2次元 ...n-1次元 これらをk次元球とする…か 問題は、「最頻値」や「微分」等をどうやって「集約」するか→…
データは1次元空間にある複数の0次元多様体の2次元座標情報 背景にあると思っている、そして思い描きたいのは、2次元空間の点に(0以上の正の)値を与えて定まるもので、それは3次元空間に曲面として描かれる2次元多様体 この2次元多様体には、(比較的…
一次元空間上に複数(n個)のレコードがあるとき、大きく分けて、平均値・中央値・最頻値を考えることが多い 1峰性の分布の場合のこと 平均値とその系列の代表値には、平均値・分散・歪度・尖度、一般化して(平均値の周りの)モーメント 中央値とその系列の代…
こちらで多次元視覚ということをやっている そんな考え方で記述統計について考え直してみる 一次元空間上に複数(n個)のレコードがあって、分布を考えているとする 1つのスカラー値で分布について情報を取るとする 代表値(平均値・中央値・最頻値など)(関連…
こちらで数学知らずの乳幼児による度数分布平滑化手法というのをやってみた 多次元空間の場合も、直交軸に関する2階の差分を評価することで、いい感じの平滑化を取り出すことができるようだった 今度は、点の数がものすごく多いとき、どうするかと言う話 生…
フェロモンセンサー 鋤鼻器―フェロモンはいかにして受容されるか (香り選書 3)作者: 市川眞澄出版社/メーカー: フレグランスジャーナル社発売日: 2008/02/25メディア: 単行本この商品を含むブログを見る 鋤鼻器由来 昆虫でよく知られたフェロモン。哺乳類を…
こちらで『なんちゃって度数分布平滑化』というのをやった 多次元に拡張しよう やり方は同じ。乳幼児の学習過程レベルの処理に限定する 多次元の点分布を「感知」し、それを隣接細胞の刺激を順次足し合わせていく また、順次、差分を取る。ただし多次元に上…
こちらで『なんちゃってPCA』というのをやった どういうことかというと、乳幼児(のようにPCAとか行列とか算数とかがわからない生物)は、そんなことを知らなくても、視覚処理をするし、眺めるべき方向を選択することはできる、という話だった じゃあ、そんな…
多次元視覚について書いていて(こちら)、多次元視覚には、「形」の観察と「トモグラム」的観察があることも書いた(こちら) 「形」の観察の統計学は"Statistical shape analysis"(Wiki記事)と言われる分野である そこでは、形の定義があって(形とは、位置・縮…
こちらで多次元オブジェクトの減次元視覚という話をしている 何かしらのルールで情報量の多さを定め、その多い順に軸を定めつつ、正規直交基底を取り出したい、ということ PCAと同じ話 ただしPCAでは、情報量の多さとは、軸に関する分散の大きさであって、線…
決断に関するメモ Multi-armed bandit exploration-exploitation dilemma Bandit for clinical trials 機械学習とBandit Exploration-exploitation
こちらで『情報理論』をぱらぱらめくっている 次から次に系列化して起きる事象があるときの情報の取扱いについて「情報源」という術語を用いて説明している そこから考えられる周辺のこと。いずれも情報量的に解釈することが大事そう。 情報源には「テキスト…
一昨日,昨日からの続き 資料(Notes on Di erential Geometry and Lie Groups) 1 Introduction to Manifolds and Lie Groups 1.1 指数マップ 指数行列 たとえばskew symmetric matrixの指数行列は回転行列 exp.m <- function(A,n){ # 固有値分解 eigen.out<-e…
昨日、情報幾何をぱらぱらやった(まだよくわからないまま)。 確率分布・確率密度分布を対象にしましょう。それは統計モデルを対象にしましょうということでもある。幾何、やりましょう。多様体をやるということですよ。滑らかな多様体として扱えるということ…
多くの見慣れた・聞き慣れた確率分布は指数分布族のメンバーである こちらがWikiで、こちらが日本語のサイト どうして同じ族に属し、また「exponential」と冠されるかと言えば、このメンバーの確率密度関数がと表されるから Wikiの表に沿って、これをやって…
Information Geometry on Hierarchy of Probability Distributions 補助資料 I. Introduction (あまたある)確率分布が構成する階層構造をInformation geometryという考え方で多様体構造として表現することを目的とする 確率変数同士の関係が見えてくる(独立…
わかりやすいオーバービューをまず読んでからにしよう こちらのこれから始める イントロ 情報幾何はある程度幅のある概念 個々の確率分布(あるいは確率構造)を点とする空間を考えること、そこで微分幾何を用いること、という緩いくくりはある その空間に何が…
分割表の酔歩。適合度検定を正確確率的に、でも、全網羅は無理なのでMCMCで。 Metropolis-Hastings アルゴリズム 進むか進まないかを確率的に決める。マルコフ基底が一歩を決める Diaconis-Sturmfels アルゴリズム グレブナー基底→マルコフ基底を求める
Fisher情報量行列は複数のパラメタに関するフィッシャー情報量の拡張である。フィッシャー情報量は統計モデルによって定まる尤度関数の微分(スコア関数)の2次のモーメント(期待値が0であるのでそれは分散でもある)であって、推定値の推定のよさに関係する。…
分割表のLatent class モデルとは(Wiki) 複数の観察できるカテゴリカル変数がある(症状・所見が並んでいる) 一方、知りたいカテゴリカルエンティティがある(鑑別診断リスト) 観察できるカテゴリカル変数から、未知変数である診断名を推定したい どの病気だっ…
背景 実験計画法と群論、ベクトル空間理論・二次形式と線形モデルなどは古くからあった 多項式を用いて統計モデルを代数表現するのが、新しい形(多項式回帰、分割表の独立性検定などには用いられていたが) それを支えるのが、多項式環、代数多様体、イデアル…
Algebraic and Geometric Methods in Statistics作者: Paolo Gibilisco,Eva Riccomagno,Maria Piera Rogantin,Henry P. Wynn出版社/メーカー: Cambridge University Press発売日: 2009/10/22メディア: ハードカバーこの商品を含むブログを見る 第3章は先行…