検定
統計学を哲学する [ 大塚 淳 ]価格: 3520 円楽天で詳細を見る データを取って、手法を適用して、その結果を使う(検定する、推定する、予測する、論文に根拠として書く)とき、統計学・データサイエンスは、何をしてくれているのだろうか、と言うことを、い…
(非負)整数列(ポアソン乱数、負の二項分布乱数など)が生成されたとする。一見、出現する値はバラバラに見えるが、本当にバラバラなのかについて考えたい これは疑似乱数列のランダム性の評価として、様々な方法が提唱されている(たとえばこちら)問題だが、一…
セミナースライド(こちら) 色々な観測量があって、統合して解析したい(オミックス層のデータ構成) データ構成の組み合わせはいろいろ 独立・関連、情報 分割表の場合 分散分析と分散と情報量 線形解析は、「遠近両用」 非線形解析は、「近のみ重用」 「近の…
説明変数群が空間上の点であって、目的変数が分布であるようなときのことを考える 「近い」ことのみを活用する 分布のエントロピーを推定するときに、度数分布を使って局所濃度の推定を介して行う方法がある(次元が大きいとうまくいかないこともあり、現実的…
昨日のさらに続き このやり方で本当にいいかは未確定 0/1の説明変数があるとする 目的変数は2次元の点座標のデータ 目的変数を20標本分プロットした。説明変数の2群を黒点プロットと赤点プロットで分けた このプロットの心:原点を中心に2次元正規分布す…
昨日のさらに続き 2軸でいわゆる相関係数を取る場合と、エントロピーとを見る場合とで、どんな違いが出るかを、 にあるような例でやってみよう この絵はWikipediaのCorrelationの例の図 上段は傾き45度でばらつきを変えている 中段はばらつきは同じで傾きを…
昨日までに何回か、共通項のある話を書いている 話が発散しているので、改めて、整理整頓 名義カテゴリの場合、それらの「位置」は正単体の頂点座標〜すべてのカテゴリ間の距離は等しい 1次元の量的分布で一峰性(しかも対称性)の場合、値が近いものは近く…
こちらの続き 分散がエントロピーと関係があることや、群内分散と群間分散とへの分解が分散分析であること、分散をエントロピーの代わりとすることは正規分布を仮定していることなどを書いてきた 正規分布とは違う分布として、多峰性の分布を取り上げる。多…
こちらの続き 線形回帰と分散分析とで順序関係が等しくなる統計量のことをやっていた 1元配置分散分析で2群のときは、線形回帰そのものだった 1元配置分散分析で3以上の群のときは群内分散・群間分散の割り振り具合と群の数(もしくはそれより1つ少ない…
こちら(ヒストグラムと情報量)の続き これは、ヒストグラムを推定分布とみなして、その分布の情報量のこと、それと分割表の独立を仮定した生起確率・独立性検定統計量のことをメモした記事 最大エントロピー原理(Wiki)の記事にあるように「情報を得る前」の…
昨日の記事はポアソン分布 今日は二項分布 こちらでは正規分布へのあてはめをしている 正規分布へのあてはめのときには、平均と分散との2パラメタを用いるので自由度の手加減のときに2を引く 二項分布のときは…1を引くようだ 期待値の小さいセルの合併は…
ポアソン分布らしい観測データがある ポアソン分布にフィットするかどうかは、こちらのような適合度検定でできる 期待値からポアソン分布のパラメタを求めて、そのパラメタ値の下での期待度数と観測度数のずれをカイ二乗統計量にして検定している 分布パラメ…
こちらの企画 親子鑑定 親子かそうじゃないか(親子ではなくて、『ただの関係』) 尤度の比をとる ルール・インする尤度比の基準がある ルール・アウトする尤度比の基準がある 尤度比検定 パラメタがあって、仮説がパラメタで表現されている 仮説ごとに尤度が…
t-testは正規分布由来のサンプルの検定をするにあたって、標本と母集団との間のずれを補正するためのもの 標本平均、標本分散、t分布 母平均、母分散、正規分布 t分布は標本数が大きくなると正規分布へ向かう t分布の基本形は、2群の標本数が同じで、2群の…
Sweave()を使って解説文書のメモを作る Sweaveのファイル"FxPowerSphere.Rnw"(末尾)を作って Sweave("FxPowerSphere.Rnw") と実行するとできる"FxPowerSphere.tex"をてふ処理してPDFにしたのがこちら "SpherePower.R"関数はこちら "FxPowerSphere.Rnw"は以下…
ピアソンの独立性検定では、適当な座標変換を施すことにより、表を自由度次元空間上の点に対応付けることができる そのうえで、さらに適当な座標変換により、ピアソンの独立性検定のカイ二乗値の平方根を原点からの距離とする、自由度次元空間上の点に対応づ…
今、次元空間を考える この空間に確率密度分布があるとする 定義より にを定義すると、 一方、同じ空間に統計量を定義する 空間に定義されたある確率密度分布があるとき、 を定めることができて、 である ここで、空間において、2つの統計量があったときに…
こちらで頻度を比較している 2x2分割表を考える 群 A a X 5 10 Y 11 20 このようなテーブルのサンプル数が、このテーブルでは総検体数が46だが、これを46x2,46x3…と増やしていくと、カイ二乗値は、2倍、3倍・・・と増えていく p値は小さくなっ…
ディプロイドのコピー数多型が染色体別に決定されたとして、観測サンプルのコピー数別アレル数を確定的に算出し、それをもとに期待度数を算出し、観測度数と比較してカイ自乗検定をする場合と、ディプロイドの保有コピー総数のみが観測されて、それに基づい…
この記事はこちらの記事の続き。 今、コピー数アレルがある。 ディプロタイプが確定できるとき、ジェノタイプは。ディプロタイプが確定できず、保有コピー数が確定できるとき、ジェノタイプは。ケース・コントロールの2群で、このジェノタイプ分布に差があ…
最大でなるコピー数アレルを有するCNVを考える。 集団内に実在するか否かは考慮せず、コピー数がの種類のアレルが存在するものとする。 アレル数はである。 ディプロタイプを考える。 2アレルを区別して特定するようなジェノタイプ(ジェノタイプx)は種類あ…
CNV多型についての論文メモと、CNV多型のケースコントロール関連検定についての現状をまとめた(記事はこちら)。 おおまかに言って、6、7年前のSNP2x3分割表検定の頃と同じ事情のようだ。 とりあえず、ケースコントロールデータを発表するにあたり、ひと…
関連記載はこちらの『バイオインフォマティクス研究者と医学研究者の交流会(2007)』
2SNPが作る4ハプロタイプについて、2群間で検定することを考える。2x4分割表ができて、自由度3である。今、4ハプロタイプをH1,H2,H3,H4とし、ケースのH1,H2,H3の観測本数をx,y,zと自由度3に相当する3変数とすると、2x4分割表の周辺度数に基づく…
まだ、メモ書きするための最低限の順序立てすらできていないけれど、何ものからも束縛されない、真の自由とは、この世のものではないらしい。それが分散の不偏性とかに通じているのだろう。
先日、Staged approachデータをJoint analysisする件についての記事を書いた(こちら)。その中で、Staged approachでの各ステージでのサンプルサイズは、ケース・コントロールで同数であるものとして統計量を求め、その値の関係を論じた(引用文献に準拠)。そ…
大規模データ・複雑データを一括してシンプルに扱うことを念頭に置いたメモ。 パーミュテーションテストについては、こちら、FDRについては、こちら、のそれぞれ、前掲記事と関連している。 SNP data の処理 0 データ構成 マーカー数 M サンプル数 N(ケース…