2016-01-01から1年間の記事一覧

遺伝情報活用のための遺伝統計学

目次 ローカスリスク 分割表 オッズ比・回帰係数 点推定・区間推定・ベイズ推定 家系におけるアレル保有率推定 他と比べる推定 マルチプルテスティング補正 棄却 FDR 進め方 典型例の提示 データのシミュレーション作成 検定・推定の実際 検定・推定結果の統…

インポータンス・サンプリング、Exponential tilting 指数型関数族

n人の投擲選手が居て、その人たちの投擲記録について賭けをすることを考える n人の投擲選手の記録はガンマ分布に従うと予想する。ガンマ分布を選ぶのは、0以上の1ピークの分布であって、まあまあいい感じのモデルだから ある選手の記録は以下のような確率分…

私の第3段階〜あらためて指数型分布族・情報幾何

ごちゃごちゃしてきて収集がつかない これをうまく整理するには、やはり数式が必要だし、納得するには式変形を見てみる必要がある 数式とその変形を追いかけると、個々の性質の「意味」がどんどんかすんでいくので、そのあたりの折り合いをどうつけるかが課…

私の第2段階〜あらためて指数型分布族・情報幾何

指数型分布族の性質や諸要素について、色々な呼称・断片的な知識に曝露されつつも、それらの有機的な関係が乏しい段階 指数型分布族の定義 定義は1つだが、式の書き方はそうではない すべての項を指数の肩に乗せる書き方と、パラメタ単独項を前に出す書き方…

私の第1段階〜あらためて指数型分布族・情報幾何

指数型分布族という名前に出会う 以下のようなことを理解する 非常に多くの有名な確率分布がすべて指数型分布族に属する たまに指数型分布族に属さない分布もある。二つの正規分布の混合や、コーシー分布とか。混合正規分布は普通の統計解析アプローチで面倒…

私の第0段階〜あらためて指数型分布族・情報幾何

まだ指数型分布族という名前を知らない 指数分布という名前は知っているかもしれない 確率分布・尤度に関しては、以下のようなことを知っている 確率分布はパラメタを使った関数。積分すると1 関数が分布の「様子」を決め、パラメタがその縮尺などを決める …

あらためて指数型分布族・情報幾何

指数型分布族のことを整理するためにはいろいろな段階があると思う 現時点では、(全部で何段階かあるのかわからないけれど、そのうちの)第3段階あたりに居るような気がする この先、階段を上るためにも、自分の各段階での理解を書いておく 第3段階だけを書…

t検定の一般化としてのホテリングのt-squared

1次元正規分布を「原点からの距離」で考え直すと、-xとxとが同じ距離にあることになり、に関する分布を考えることとなり、カイ分布になる。距離の二乗で考えることにすればカイ二乗分布 d次元正規分布を「原点からの距離」で考え直すと、原点から等距離にあ…

Stanで多次元正規分布

多次元データが取れる場合と、多次元だけれど、その一部次元のデータしか取れない場合っていうのは、どういう違いがあるのか… multinormal2.stan data { int N_subjects; int N_items; matrix[N_subjects,N_items] y; } parameters { vector[N_items] mu; co…

勝手にStan

Stanを使えば事後分布が乱択的に得られる けれど、単純なモデルではつまらないし、普通に回帰等をする方がよっぽどよい どれくらいモデルが複雑だとStanがよいかを言い切るほどよくわかっていないけれど、階層ベイズはそうなのだろう(こちら) SNPの遺伝因子…

rstan

ようやくrstanがわかってきたのでまとめ直す まとめ データがある 確率モデルを定め、対数尤度計算をコード化する rのc++連携の仕組みを使ったrstanパッケージのstan()関数を使ってStan推定をする 何がよいのか 上記のまとめは読んでもつまらないまとめにな…

RとSTANとでBayesianの基礎

ベイズ推定をする データがある モデルがある モデルは、パラメタを持っていて、そのパラメタの値を定めると、データを観察する確率が定義できる Stanでは、このパラメタがどういう分布を取っているかを乱数を使って標本分布として返す パラメタ以外にも、ど…

rstanの調べもの

modelの部分が何をやっているのか…対数尤度を計算している。その書き方の基礎の基礎→こちら stanの基本的なことだけれど、なかなか探すのが難しいことをかいつまんで書いてあるサイト→こちら 一般化線形回帰を使ってrstanの動かし方を確認する→こちら stanフ…

Gittins index

資料 s成功回数、f失敗回数 試行回数が大きくなるとインデックスはs/(s+f)に収束する 期待値はベータ分布事後分布を用いる インデックスの収束値からのずれは、その時点での予想報酬量のばらつきが多いほど、大きくなる インデックスの収束値からのずれは、…

ベルマン方程式

調べものをしましたが、日本語サイトの中でこちらが一番、わかりやすく参考にさせていただきました ベルマン方程式というものがある。Wikipediaではベルマン方程式(リチャード・E・ベルマン)、もしくはBellman_equation 選択肢があるときに、どれを選ぶとよ…

ExAC

Analysis of protein-coding genetic variation in 60,706 humans 91000エクソーム→フィルタリング・QC→60706人 ヨーロッパ人を大多数に、東アジア、南アジア、アフリカ、Latinoを主要サンプルとする 10195872(1千万)候補バリアントを見つけ、確度の高い740…

ぱらぱらめくる『逆問題の数学』

逆問題の数学作者: 堤正義出版社/メーカー: 共立出版発売日: 2000/03/01メディア: 単行本 クリック: 3回この商品を含むブログを見る 本の前提 リッジ回帰は、のようなデータについての値が説明変数にばらけるような割り付けをするタイプの回帰 そのときにの…

5.6 複数要因・組み合わせ、独立だったり順序があったり ぱらぱらめくる『はじめての統計データ分析』

stanファイル似て指定する モデルを書き換えて、知りたいことを生成量にすれば、なんでもできる 要因が増えるなら、モデル式の項数を増やす 複数カテゴリに順序を入れてそれらが守られているかどうかは、事後分布から発生した標本のうちそれが満足されるもの…

3.4. 2群のデータ ぱらぱらめくる『はじめての統計データ分析』

t検定が、等分散性の仮定の有無を区別するように、また、対応のありなしを区別するように、事後分布推定もそれぞれの仮定の下で行う 仮定はmodelとして指定する 等分散性の有無は、2群の分散を1つのパラメタで表すか否かで書き分ける 対応があることは、分…

2.MCMCと正規分布の推測 ぱらぱらめくる『はじめての統計データ分析』

2つの内容 MCMCによる事後分布の評価方法と解釈方法 正規分布の推測 MCMC法 推定の対象は分布を取る。データを生成する尤度に基づく事後分布である 計算によって事後分布の最尤値をもとめたり、分布の形を求めたり、区間を求めたりするのは、大変だったり不…

2−5.rstanを自由に動かす ぱらぱらめくる『はじめての統計データ分析』

教科書のコードをコピーペーストすれば、MCMCによる事後分布推定はできるけれど、条件を変えにくい 少し勉強して自由に動かしてみる rstanパッケージのstan()関数に必要なものを渡せばよい どうしても渡さないといけない引数はfile、dataの二つ fileはどうい…

2−4.rstanを動かす ぱらぱらめくる『はじめての統計データ分析』

2章のコードを動かしてみる G1mean()関数は、この教科書が提供しているstanを使う関数。以下のような設定で回るように作られている 正規分布を仮定し 正規分布のパラメタmu,sigmaをサンプリングしつつ そのほかにxaste,log_likともサンプリングする xasteは…

2−3.真偽判定 ぱらぱらめくる『はじめての統計データ分析』

事後分布を推定し、その下で(その各事後分布由来の標本の下で)、Aかnon-Aかの確率を算出すれば、事後分布全体でAかnon-Aかの確率が推定できる これを仮説検定のような意味合いで使うことも可能 ただし、帰無仮説検定では、パラメタ値が0かそれ以外かを…

2−2.データから知りたいことを言葉にする ぱらぱらめくる『はじめての統計データ分析』

2章では、データに基づいて、モデルのパラメタの事後分布を推定することを学んだけれど、それ以外にも、いろいろな「知りたいこと」の事後情報が得られる RQ(リサーチクエスチョン)と称して、複数の「知りたいこと」が列挙してあるので、その意味を確認し、…

MCMC法とサンプリングアルゴリズム ぱらぱらめくる『はじめての統計データ分析』

視覚的に理解する 酔歩しながら、うまくサンプリングする方法(ヘイスティング・ギブスサンプラー) ちょっと工夫して、広く、高採択率でサンプリングする方法(ハミルトニアン) 事後分布を推定したい データを持っている データをもたらしたはずの分布モデルも…

ぱらぱらめくる『はじめての統計データ分析』

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2016/06/02メディア: 単行本(ソフトカバー)この商品を含むブログ (11件) を見る 構成 準備 教科書のRコードが動くことの確認 まえがきと目…

1−2.ベイズと分布〜Rを使う ぱらぱらめくる『はじめての統計データ分析』

真の分布は理論分布ではない(かもしれない) 真の分布として、平均100、標準偏差10の正規分布と平均120、標準偏差30の正規分布の0.7:0.3混合分布を仮定する そのような真の分布からの500人分の観察データをシミュレート作成する n <- 500 pr <- c(0.7,0.3) Ao…

教科書のRコードが動くことの確認 ぱらぱらめくる『はじめての統計データ分析』

自身のコンピュータでRを使っている「場所」を確認する getwd() 例えば > getwd() [1] "C:/Users/ryamada/Documents" となる。"C:/Users/ryamada/Documents"でRを動かしている ダウンロードしたzipファイルを展開した結果、"C:/Users/ryamada/Desktop/stat"…

1.ベイズと分布 ぱらぱらめくる『はじめての統計データ分析』

ポイント ベイズ流では、分布を扱うこと、ベイズの定理を使うこと、事前分布が必要なこと 分布は大事であって、この本では分布を使う、ということ 分布には データ分布・標本分布がある 理論分布がある 分布を使うために知っておくべきこと データ分布と理論…

まえがきと目次を読む ぱらぱらめくる『はじめての統計データ分析』

まえがき この本では 「仮説」と「データ」を持っているときに 「仮説が正しい確率」を計算する 「仮説が正しい確率」を含め、「データ」に基づいて算出する量を「生成量」と呼ぶ 「仮説」を検定しない 目次 1. データの整理とベイズの定理 2. MCMCと正…