インフォグラフィックとデータ視覚化

[データ視覚化][インフォグラフィック] データ視覚化とインフォグラフィック。 統計学・データサイエンスの分野では、データを解りやすく伝える技術としてデータ視覚化(data visualization)もあります 両者には似ている点もありますが、異なる点もあります。…

引越しました

2018/09/04に引っ越しました。 引越し後(はてなブログ) 引越し前(はてなダイアリー)

ノンパラ・ベイズ 夏休み集中セミナーメモ

9月1日 パラとノンパラの基礎概念 資料1『Parametric vs Nonparametric Models』 パラは有限個パラメタ、ノンパラは無限個パラメタのモデル 無限個パラメタのモデルとはどういうことかをわかることが大事 ノンパラベイズは無限個パラメタを想定しつつ、実…

ノンパラ・ベイズ 夏休み集中セミナーメモ0

予定 9月1日(パラとノンパラの基礎概念。ノンパラ検定) 9月17日(ノンパラ・ベイズの短いチュートリアル) 9月22日(長文資料のつまみ食い。R・パイソンで遊ぶ、その1) 9月24日(長文資料のつまみ食い。R・パイソンで遊ぶ、その2) 参加者 A(統計遺…

6 General Posterior Distribution 一般化した場合 ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

Algebraic geometric transformにより、standard form(5章の形)に持ち込めることを示す となれば、5章で示したStandard formの色々な良い性質がそのまま使える(らしい)

5 Standard Posterior Distribution 事後分布が正規分布の場合 ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

モデルが真の分布を含み、推定にあたり、漸近的に正規分布を想定できる場合は簡単。ベイズ推定と最尤推定とがほぼ一致するから 真の分布は正規分布とはみなせないことも多く、その場合は、ベイズ推定のあてはまりがよくなる と一般化できる(そうだ) この章で…

3 Basic Formula of Bayesian Observables 観測量のベイズにおける基礎的な式 ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

(1) 真の分布と統計モデルの関係の定義をする (2) 観測変数のベイズ流定義とのそのnormalized version (3) ベイズ予測のキュムラント母関数の定義 (4) ベイズ統計の基礎的な理論事項をキュムラント母関数を用いて証明する(それにより、真の分布とモデルと予…

1 ベイズ統計の基礎 ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

真の分布の事前分布があって、それぞれがある観測をもたらす確率がわかっていれば、観測から真の分布の事後分布が計算できる、というのがベイズの定理 残念ながら、事前分布も正確には解らないし、観測をもたらす確率も解っていない(のでモデルを入れる)から…

ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

Mathematical Theory of Bayesian Statistics (Chapman & Hall/Crc Monographs on Statistics & Applied Probability)作者: Sumio Watanabe出版社/メーカー: Chapman and Hall/CRC発売日: 2018/04/19メディア: ハードカバーこの商品を含むブログ (2件) を見…

ぱらぱらめくる『Mathematical Theory of Bayesian Statistics』

Mathematical Theory of Bayesian Statistics (Chapman & Hall/Crc Monographs on Statistics & Applied Probability)作者: Sumio Watanabe出版社/メーカー: Chapman and Hall/CRC発売日: 2018/04/19メディア: ハードカバーこの商品を含むブログ (2件) を見…

固有値分解する

の最小化 の最小化 Mの最小固有値に対応する固有ベクトルが一番拡大率が小さいから、その固有ベクトル方向のが求める解 n <- 100 X <- matrix(rnorm(n*2),ncol=2) Y <- X %*% c(1,2) + rnorm(n,0,0.01) library(rgl) plot3d(X[,1],X[,2],Y) lm(Y ~ X-1) XY <…

メモ

ごちゃごちゃと考えたときのメモ 普通のポアソン分布は非負整数を台としてその上に非負実数を配するルールをパラメタ依存に定める。そういう意味で、パラメトリックな確率分布とは、「ある台」に総和(全体の積分)が1になるような確率質量・密度を定めるルー…

ぱらぱらめくる『The Ubiquitous Ewens Sampling Formula』

ペイパーはこちら Ewens sampling formulaは遺伝統計学分野から出た正確確率計算式で、ある理想集団におけるアレル頻度パターンが生じる確率の式であるが、それは離散確率過程において応用範囲が広いものであり、遺伝学・生物学の中では、アレル頻度だけでな…

ポアソン点過程・分割・ノンパラメトリックベイズ

動機 色々動機はあるかもしれないが 多数のもの・無限個あるかもしれないもののタイプ分けが興味の対象 クラスタ数不定な状況でのクラスタリング そのための確率モデル その確率モデルの下での生起確率・事前確率・尤度・事後確率 モデル 具体的な説明から始…

Ewens sampling formula

Ewens sampling formulaは、集団のハプロタイプ生成状況にある条件を課したときに、標本の頻度分布の正確確率に関する式 これは集団遺伝学の領域では、最も単純な条件でのCoalescent過程が生成する頻度分布になる Coalescent過程は頻度分布のみを定めるだけ…

Poisson 点過程で作る Random Exchangeable Partitions

Stick breaking process/中華料理店過程でExchangeable random partitionsが作れることを前の記事で書いた 同じことを別の作り方として表現できる 正の値をランダムに発生させ、その総和が1になるように標準化すれば、足して1になる多数の(無限の)正の数の集…

Random Exchangeable Partitions

Random Exchangeable Partitions Partition(分割)を考える 何を分割するのかが問題になる。ある正の整数Nを分割する。このときという集合を排他的な部分集合に分割する、という考え方もあるが、それだと、「1から正の整数Nまでの整数集合を分割する」と表現…

確率的に単位線分を分割し続けて作る Random Exchangeable Partitions

長さ1の単位線分をあるルールで確率的に分割していけば、それもRandom Exchangeable Partitionsとなる Poisson-Dirichlet Processと呼ばれる方法がその一つで、よく研究されている 何度でも分割し続けるルールとして、単位線分から出発して、分割点を1点と…

確率質量分布で表すRandom Exchangeable Partitions

Kingmanのpaintbox〜単位線分タイリングがrandom exchangeable partitionsの表現であることがわかったが、実際、どんなrandom exchangeale partitionsが現れるのかは確率事象なので 確率事象として生成されるときにどんな確率事象なのか、そのときにどのよう…

Kingman's theorem、Random Exchangeable Partitions

無限大()のRandom Exchangeable Partitions 限大にするとちょっと厄介 こんな方法(KingmanのPaintboxの方法)というのがある 1,2,...,Nという数列を長さ1の線分に見立てて、それを分割する ただし、Nは無限大なのでこの線分上には無限個の自然数が並んでいる…

ポアソン・ディリクレ過程とハプロタイプ頻度

サンプリングして有限個数の多項分布を生み出すことに関するものと、長さ1を分割する・無限分割することに関するものに大きく2分され、その2つが相互に関連する、という構図になっている 中華料理店過程とその一般化としてのピットマン・ヨー過程 多項標…

Priorを調整しながらベイズ

あるpriorでMCMCベイズを回して事後分布を得るとする そのpriorは、ある基準で選ばれたpriorだが、別の基準だと「変数変換」しないといけないとする そんなpriorの重み変換をすることができるのか、できるならどうやるのかの調べもの こちらは、この用に適し…

FDR: Benjamini-Hockberg

昨日の記事はKnockoff 変数を用いたFDRの制御の話 FDRといえば、Benjamini-Hochbergもある これは、「ある閾値で変数の取捨選択をするとする」ときに、すべの変数が帰無仮説OK変数だったとした場合に、何個の変数がFalselyに帰無仮説を棄却するかの期待個…

Knockoff 変数

Knockoff 変数を使ったFDRについての概説記事はこちら 説明変数 Xがnxp行列(nサンプル、p個の説明変数)であるときに この形は2p個の変数の分散共分散行列になっており、Positive definite したがって、(対角行列)の取り方に制約がある その制約がある中で、…

Knockoff 変数によるFDR

資料はこれ(基本)とこれ(GWAS等への拡張) Rのパッケージはknockoffで、そのgithubがこちら 考え方の基本 FDRをしたい 多変量解析をしていて、いくつかの変量は従属変量に意味のある寄与があり、残りの変量は意味がない、というように振り分けたい その振り分…

ぱらぱらめくる『遺伝子 親密なる人類史』

遺伝子‐親密なる人類史‐ 上作者: シッダールタムカジー,Siddhartha Mukherjee,仲野徹,田中文出版社/メーカー: 早川書房発売日: 2018/02/06メディア: 単行本この商品を含むブログ (4件) を見る遺伝子‐親密なる人類史‐ 下作者: シッダールタムカジー,Siddharth…

乗法的更新アルゴリズム

どうして乗法的と言うか 複数のアドバイザが居るときに、そのアドバイザのアドバイスを使って何かの決断をするとする 決断の結果がよいこともあるだろうし、悪いこともあるだろう 決断の結果のよしあしを持って、アドバイザに信用を置くかどうか・アドバイザ…

ダイバージェンス

こちらにいろいろなダイバージェンス(2点間の遠近を数値化する方法)について書かれている ぱらぱらめくってメモってみる 大きく2つある Bregman divergence f-divergence 両者の交わりに、α-divergenceがあり、その一つがKLdivergence Bregman divergence …

エントロピーと幾何平均

という積分がある。pが確率密度分布であるとき、この積分はKLdの計算の基礎となっているし、はエントロピーである。 の期待値とも読めるこのであるが、離散的な場合のは次のように式変形できる(こちら) この右辺が重み付き幾何平均であることが知られており…

Data Structure for Human Cell Atlas-like Project Part 2

昨日の記事でHuman Cell Atlasのデータ構造についてメモした 今日の記事では確率モデルにするにあたっての原則について考える 確率変数 観察というイベントごとに確率変数を定める 確率変数は単項か複数項かで設定に(多少の)違いを要する 単項の場合 量的 パ…