Data Structure for Human Cell Atlas-like Project Part 2 - ryamadaの遺伝学・遺伝統計学メモ

昨日の記事でHuman Cell Atlasのデータ構造についてメモした
今日の記事では確率モデルにするにあたっての原則について考える
確率変数
- 観察というイベントごとに確率変数を定める
- 確率変数は単項か複数項かで設定に(多少の)違いを要する
- 単項の場合
  - 量的
    - パラメトリック分布の指定が容易
    - ノンパラメトリック分布の指定も、指数型分布族準拠な作りにできるとよさそう
  - カテゴリカル〜非順序・順序・構造化のいずれもをグラフで表す→グラフ表現は要検討
    - これも指数型分布族表現ができれば、量的・カテゴリカルとを区別する必要はなくなる→要検討
  - 要検討課題がクリアされるまでは、淡々と、パラメトリックに指定する
- 多項の場合
  - 量的
    - 多変量正規分布のような「平均ベクトル」と「分散共分散行列」のような指定ができるとよい
    - 単項の分布が指数型分布族表現に統一できたとしたら、それの多変量版ができるとよい→要検討
    - 要検討課題がクリアされるまでは淡々と、多変量正規分布、多変量対数正規分布のみを使っておくのでも(おそらく)よい
モデル
- 知りたいのは、「同時分布」
- 細部の関係を忘れて、まずは、全確率変数が作る「同時分布」のモデルを立てる
- 同時分布を定めるに当たり、観察されないことになっている「細かい要素」でできたモデル・分布とする
- その上で、観察することになっている確率変数が、観察されないことになっている「細かい要素」のどのようなものになっているかを指定する
  - たとえば、細胞集団からのランダム標本の平均として観察するなら、そのように。細胞集団(に解剖学的構造があるとして)の部分を取り出すのなら、部分ごとのばらつきを考慮し、そのうえで特定の部分の特徴を特にになった細胞集団として指定する(顕微鏡観察をして、「癌部」と見えるところを集中的に抜き取る、というのは、採取細胞集団の特性を決める手技であるがその手技も確率モデルとする。…など