遺伝情報活用のための遺伝統計学

目次ローカスリスク分割表オッズ比・回帰係数点推定・区間推定・ベイズ推定家系におけるアレル保有率推定他と比べる推定マルチプルテスティング補正棄却 FDR 進め方典型例の提示データのシミュレーション作成検定・推定の実際検定・推定結果の統…

2016-09-20

インポータンス・サンプリング、Exponential tilting 指数型関数族

インポータンス・サンプリング Exponential tilting 指数型関数族

n人の投擲選手が居て、その人たちの投擲記録について賭けをすることを考える n人の投擲選手の記録はガンマ分布に従うと予想する。ガンマ分布を選ぶのは、0以上の１ピークの分布であって、まあまあいい感じのモデルだからある選手の記録は以下のような確率分…

2016-09-17

私の第３段階〜あらためて指数型分布族・情報幾何

指数型分布族情報幾何

ごちゃごちゃしてきて収集がつかないこれをうまく整理するには、やはり数式が必要だし、納得するには式変形を見てみる必要がある数式とその変形を追いかけると、個々の性質の「意味」がどんどんかすんでいくので、そのあたりの折り合いをどうつけるかが課…

2016-09-17

私の第２段階〜あらためて指数型分布族・情報幾何

指数型分布族情報幾何

指数型分布族の性質や諸要素について、色々な呼称・断片的な知識に曝露されつつも、それらの有機的な関係が乏しい段階指数型分布族の定義定義は１つだが、式の書き方はそうではないすべての項を指数の肩に乗せる書き方と、パラメタ単独項を前に出す書き方…

2016-09-17

私の第１段階〜あらためて指数型分布族・情報幾何

指数型分布族情報幾何

指数型分布族という名前に出会う以下のようなことを理解する非常に多くの有名な確率分布がすべて指数型分布族に属するたまに指数型分布族に属さない分布もある。二つの正規分布の混合や、コーシー分布とか。混合正規分布は普通の統計解析アプローチで面倒…

2016-09-17

私の第０段階〜あらためて指数型分布族・情報幾何

指数型分布族情報幾何

まだ指数型分布族という名前を知らない指数分布という名前は知っているかもしれない確率分布・尤度に関しては、以下のようなことを知っている確率分布はパラメタを使った関数。積分すると１関数が分布の「様子」を決め、パラメタがその縮尺などを決める …

2016-09-17

あらためて指数型分布族・情報幾何

指数型分布族情報幾何

指数型分布族のことを整理するためにはいろいろな段階があると思う現時点では、(全部で何段階かあるのかわからないけれど、そのうちの)第３段階あたりに居るような気がするこの先、階段を上るためにも、自分の各段階での理解を書いておく第３段階だけを書…

2016-09-14

t検定の一般化としてのホテリングのt-squared

t検定ホテリングのt-squared 一般化

１次元正規分布を「原点からの距離」で考え直すと、-xとxとが同じ距離にあることになり、に関する分布を考えることとなり、カイ分布になる。距離の二乗で考えることにすればカイ二乗分布 d次元正規分布を「原点からの距離」で考え直すと、原点から等距離にあ…

2016-09-13

Stanで多次元正規分布

Stan rstan Wishart分布

多次元データが取れる場合と、多次元だけれど、その一部次元のデータしか取れない場合っていうのは、どういう違いがあるのか… multinormal2.stan data { int N_subjects; int N_items; matrix[N_subjects,N_items] y; } parameters { vector[N_items] mu; co…

2016-09-11

勝手にStan

Stan rstan

Stanを使えば事後分布が乱択的に得られるけれど、単純なモデルではつまらないし、普通に回帰等をする方がよっぽどよいどれくらいモデルが複雑だとStanがよいかを言い切るほどよくわかっていないけれど、階層ベイズはそうなのだろう(こちら) SNPの遺伝因子…

2016-09-07

rstan

R Stan rstan

ようやくrstanがわかってきたのでまとめ直すまとめデータがある確率モデルを定め、対数尤度計算をコード化する rのc++連携の仕組みを使ったrstanパッケージのstan()関数を使ってStan推定をする何がよいのか上記のまとめは読んでもつまらないまとめにな…

2016-09-06

RとSTANとでBayesianの基礎

R Stan rstan ベイズ

ベイズ推定をするデータがあるモデルがあるモデルは、パラメタを持っていて、そのパラメタの値を定めると、データを観察する確率が定義できる Stanでは、このパラメタがどういう分布を取っているかを乱数を使って標本分布として返すパラメタ以外にも、ど…

2016-09-06

rstanの調べもの

R Stan rstan

modelの部分が何をやっているのか…対数尤度を計算している。その書き方の基礎の基礎→こちら stanの基本的なことだけれど、なかなか探すのが難しいことをかいつまんで書いてあるサイト→こちら一般化線形回帰を使ってrstanの動かし方を確認する→こちら stanフ…

2016-09-02

Gittins index

Gittins index Brezzi Lai近似

資料 s成功回数、f失敗回数試行回数が大きくなるとインデックスはs/(s+f)に収束する期待値はベータ分布事後分布を用いるインデックスの収束値からのずれは、その時点での予想報酬量のばらつきが多いほど、大きくなるインデックスの収束値からのずれは、…

2016-08-25

ベルマン方程式

ベルマン方程式動的計画法マルチアームド・バンディット Gittins index

調べものをしましたが、日本語サイトの中でこちらが一番、わかりやすく参考にさせていただきましたベルマン方程式というものがある。Wikipediaではベルマン方程式(リチャード・E・ベルマン)、もしくはBellman_equation 選択肢があるときに、どれを選ぶとよ…

2016-08-18

ExAC

論文ゲノム Exome ExAC

Analysis of protein-coding genetic variation in 60,706 humans 91000エクソーム→フィルタリング・QC→60706人ヨーロッパ人を大多数に、東アジア、南アジア、アフリカ、Latinoを主要サンプルとする 10195872(１千万)候補バリアントを見つけ、確度の高い740…

2016-08-09

ぱらぱらめくる『逆問題の数学』

逆問題ぱらぱらめくるシリーズチホノフ正則化正則化リッジ回帰

逆問題の数学作者: 堤正義出版社/メーカー: 共立出版発売日: 2000/03/01メディア: 単行本クリック: 3回この商品を含むブログを見る本の前提リッジ回帰は、のようなデータについての値が説明変数にばらけるような割り付けをするタイプの回帰そのときにの…

2016-08-08

５．６　複数要因・組み合わせ、独立だったり順序があったり　ぱらぱらめくる『はじめての統計データ分析』

ぱらぱらめくるシリーズベイズ

stanファイル似て指定するモデルを書き換えて、知りたいことを生成量にすれば、なんでもできる要因が増えるなら、モデル式の項数を増やす複数カテゴリに順序を入れてそれらが守られているかどうかは、事後分布から発生した標本のうちそれが満足されるもの…

2016-08-07

３．４．　２群のデータ　ぱらぱらめくる『はじめての統計データ分析』

ぱらぱらめくるシリーズベイズ

t検定が、等分散性の仮定の有無を区別するように、また、対応のありなしを区別するように、事後分布推定もそれぞれの仮定の下で行う仮定はmodelとして指定する等分散性の有無は、２群の分散を１つのパラメタで表すか否かで書き分ける対応があることは、分…

2016-08-06

２．MCMCと正規分布の推測　ぱらぱらめくる『はじめての統計データ分析』

ぱらぱらめくるシリーズベイズ

２つの内容 MCMCによる事後分布の評価方法と解釈方法正規分布の推測 MCMC法推定の対象は分布を取る。データを生成する尤度に基づく事後分布である計算によって事後分布の最尤値をもとめたり、分布の形を求めたり、区間を求めたりするのは、大変だったり不…

2016-08-06

２−５．rstanを自由に動かす　ぱらぱらめくる『はじめての統計データ分析』

ぱらぱらめくるシリーズベイズ

教科書のコードをコピーペーストすれば、MCMCによる事後分布推定はできるけれど、条件を変えにくい少し勉強して自由に動かしてみる rstanパッケージのstan()関数に必要なものを渡せばよいどうしても渡さないといけない引数はfile、dataの二つ fileはどうい…

2016-08-06

２−４．rstanを動かす　ぱらぱらめくる『はじめての統計データ分析』

ぱらぱらめくるシリーズベイズ

２章のコードを動かしてみる G1mean()関数は、この教科書が提供しているstanを使う関数。以下のような設定で回るように作られている正規分布を仮定し正規分布のパラメタmu,sigmaをサンプリングしつつそのほかにxaste,log_likともサンプリングする xasteは…

2016-08-06

２−３．真偽判定　ぱらぱらめくる『はじめての統計データ分析』

ぱらぱらめくるシリーズベイズ

事後分布を推定し、その下で(その各事後分布由来の標本の下で)、Ａかnon-Ａかの確率を算出すれば、事後分布全体でＡかnon-Ａかの確率が推定できるこれを仮説検定のような意味合いで使うことも可能ただし、帰無仮説検定では、パラメタ値が０かそれ以外かを…

2016-08-06

２−２．データから知りたいことを言葉にする　ぱらぱらめくる『はじめての統計データ分析』

ぱらぱらめくるシリーズベイズ

２章では、データに基づいて、モデルのパラメタの事後分布を推定することを学んだけれど、それ以外にも、いろいろな「知りたいこと」の事後情報が得られる RQ(リサーチクエスチョン)と称して、複数の「知りたいこと」が列挙してあるので、その意味を確認し、…

2016-08-06

MCMC法とサンプリングアルゴリズム　ぱらぱらめくる『はじめての統計データ分析』

ぱらぱらめくるシリーズベイズ

視覚的に理解する酔歩しながら、うまくサンプリングする方法(ヘイスティング・ギブスサンプラー) ちょっと工夫して、広く、高採択率でサンプリングする方法(ハミルトニアン) 事後分布を推定したいデータを持っているデータをもたらしたはずの分布モデルも…

2016-08-05

ぱらぱらめくる『はじめての統計データ分析』

ぱらぱらめくるシリーズベイズ

はじめての統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2016/06/02メディア: 単行本（ソフトカバー）この商品を含むブログ (11件) を見る構成準備教科書のRコードが動くことの確認まえがきと目…

2016-08-05

１−２．ベイズと分布〜Rを使う　ぱらぱらめくる『はじめての統計データ分析』

ぱらぱらめくるシリーズベイズ

真の分布は理論分布ではない(かもしれない) 真の分布として、平均100、標準偏差10の正規分布と平均120、標準偏差30の正規分布の0.7:0.3混合分布を仮定するそのような真の分布からの500人分の観察データをシミュレート作成する n <- 500 pr <- c(0.7,0.3) Ao…

2016-08-05

教科書のRコードが動くことの確認　ぱらぱらめくる『はじめての統計データ分析』

ぱらぱらめくるシリーズベイズ

自身のコンピュータでRを使っている「場所」を確認する getwd() 例えば > getwd() [1] "C:/Users/ryamada/Documents" となる。"C:/Users/ryamada/Documents"でRを動かしているダウンロードしたzipファイルを展開した結果、"C:/Users/ryamada/Desktop/stat"…