推定。パラとノンパラ
- 混交正規分布が背景にあるとする
- パラメトリックに、単純な正規分布を仮定して、推定すると、サンプル数を増やしても、推定結果は1峰性の正規分布であり、背景分布の平均(期待値)と分散は正確になるが、混合正規分布の特徴である複数峰は決して推定されない。
- また、期待値と分散の推定値は、散布する数が少ないときから安定して、よい値が推定される
- この、サンプル数が少ないときから、(モデルとしては不十分ながら)推定結果がよいことを、推定のバリアンス(ばらつき)が小さく収まるという
- その一方で、サンプル数をどんなに増やしても、真の分布である複数峰には近づかないことを、「モデルが真からずれている」から「推定結果もずれざるを得ない」と言う意味で、バイアスが大きい推定になっている、と言う
- 他方、ガウシアン・カーネルによる密度推定では、個々のサンプルに小さな正規分布を担わせ、それらの加算として、全体の密度分布を推定させる。したがって、サンプル数が大きくなればなるほど、たくさんの小正規分布の和として分布推定される。使用するパラメタ数が大きくなるともいえる
- この、サンプル数が増えれば増えるほど、分布を説明するパラメタ数が大きくなる推定法であることを「ノンパラメトリックな推定手法」である、と言う。
- しかしながら、個々のサンプルに担わせる小さな正規分布をどんなものにするかに選択の余地があり、その選び方で結果が変わる。ガウシアンカーネル法の場合には、平均は観測値そのものとするとして、分散をどうするかは選ばないといけない
- その分散を大きくしすぎると、背景分布の細かい多峰性は表現できないし、分散を小さくしすぎると、全体の様相をつかみ損ねて、標本依存性が上がる。この標本依存性が上がってしまうことを、オーバーフィッティングと言ったり、推定のバリアンスが大きいと言ったりする
- しかしながら、パラメトリックな手法の際に、バイアスは大きくてもよいからバリアンスを小さく維持することに成功したことの裏返しで、バリアンスは大きくなるが、バイアスは小さくできる。したがって、標本数が大きいときには、標本数がバリアンスを押しとどめてくれるので、バイアスの小さい、真の分布に近いものを得うる、という可能性をもつ
- 以下のRコードは、4峰性の1次元混合正規分布に対して、単純な1峰性正規分布推定をパラメトリックな推定法の代表として用い、ガウシアンカーネル法をノンパラメトリックな手法として用いつつ、ガウシアンカーネルの個別分布の分散に大小2つを採用することで、サンプル数の多寡による推定分布の変化の様子を見ている
- Nが小さくても大きくても、1峰パラメトリック推定(赤)は大して変わらない・・・バリアンスが小さい
- Nが小さいときと大きいときでも、緑の推定(ガウシアンカーネルで分散が大きめ)は滑らかな推定分布であるが、方や、中央付近に大きな1峰、方や、中央付近に2峰の可能性の萌芽が見える
- 分散の小さいガウシアンカーネルの場合は、Nが小さくても、大きくても、中央付近にシャープな2峰が推定できている点では、よい推定だが、Nが小さいときに、左右の裾領域に複数の峰が現れており、真分布に合致せず、標本に引きずられている様子が見える(バリアンスが高い)
モザイク・キメラ・混合試料のための二項分布Rコード
- シークエンサーを使ったSNPタイピングをDNA鑑定に用いるとき、単純なホモ・ヘテロ接合体の分離だけでなく、モザイク・キメラ体個人のそれをする必要に迫られることになる
- さらに、この課題は混合試料の解析・解釈とも関係する
- それを考えるためのスライドがこちら
- スライド作成に用いたコードが以下
ぱらぱらめくる『Nature Reviews Genetics』2019
- 毎年やっている、年末の『パラパラめくるNature Reviews Genetics』
- 今年もやってみましょう
- 年を経るごとに、細かいことは、ま、いいか、と、雑になっていますが、頑張って参ります
- 全体の印象としては:
- 昨年までなどは、「現象」に関する総説が多かったように思いますが、今年は「将来を志向した概念」に関する記事がめだったように思います。
- 短文紹介した記事はどれも面白いと思います。それ以外にも面白いものがありましたが、「医学」「データ解析」系に興味が強いので、志向方向が近い方は取り上げたものをめくってみると楽しいのでは、と思います。
- 2019 Dec
- 2019Nov
- 2019Oct
- ゲノム上にある遺伝子とその制御構造の1次元構造位置と核内3次元構造の知見が増えてきており、3次元構造が遺伝子の協調制御に大事だろうと思わされるが、あえてそれを改変してやっても、細胞は機能を維持するらしいという話。たまたま見えているゲノムパーツの3次元構造と、必要に迫られて形成される3次元構造。ニワトリと卵の話は、技術が進んでもなかなかゴールに達しないようです
- 2019Sep
- 生命現象の本質は、離散的な要素(細胞しかり、個人しかり)って、それぞれが活動しその総体として表現型を形成するという仕組み。そのように考えたとき、個々の要素のばらつきとその確率的振る舞いは、本質的な意味を持つ。そんな側面に関するお話
- 2019August (ピックアップ文章なし)
- 2019July
- 2019June
- Clinical metagenomicsは「個人が生まれながらに持っているDNAセット」とは別だが、個々人がもれなく持っている膨大な影響を与える遺伝子群についての臨床応用の話。疫学で環境要因とみなしていたもののどれくらいが、メタゲノム的には環境要因扱いとなり、遺伝形式不明かつあやふや度の強い遺伝要因扱いとなっていくのかは(リンク先ペイパーとは別の意味で)興味深いです
- 2019May
- 2019April
- 2019March
- スプライスバリアントは(同一の)遺伝子が発揮する分子多様性の初期段階要素。それについてAIを使って、どんなバリエーションが出るかという検討の話
- 男女差。ポリティカリーには「男女平等」だけれど、遺伝学的には、かなり峻別度が高い(完全に峻別はできないけれど)情報であることは確か。その男女差に着目して様々な点から現在の(分子レベルの)遺伝的現象を概説
- 2019Feb (ピックアップ文章なし)
- 2019Jan
歩幅1の酔歩
- d次元空間を原点から出発して、歩幅を1に固定して歩き回ることにする
- k歩目での原点からの距離の期待値はいくつになるかをシミュレーションで計算してみる
- に収束するらしい