2013-06-10

データの構成

オミックス

ゲノム
- 染色体単位の塩基配列
  - 染色体配列： $\mathbf{C}_i=4^{\mathbf{Z_i}};i=1,2,...,23$
  - ハプロイド： $\mathbf{H}=\{\mathbf{C}_i\};i=1,2,...,23$
  - ディプロイド： $\mathbf{B} =\{\mathbf{H}_p,\mathbf{H}_m\};$ ただし、ここで父由来・母由来を区別しているが、区別しないで丸めることも多い
- 遺伝子単位の塩基配列(ただし、ここでの遺伝子の定義は、DNA配列であって、ゲノム上の特定の連続する範囲を占め、機能を有するもの、とする)
  - ハプロタイプ： $\mathbf{G}_j \in_{seq} \mathbf{C_i};i=1,2,...,23;j=1,2,...,n_g$ ,ここで $\in_{seq}$ は連続する数列の集合関係
  - ディプロタイプ： $\mathbf{G_b}_j=\{\mathbf{G}_{j,p},\mathbf{G}_{j,m}\}$
  - 遺伝子はカテゴリに分けられる $\mathbf{G}_j \in \mathbf{\gamma}_k$ ,ただし $\mathbf{\Gamma}=\{\gamma_{\text{coding}},\gamma_{\text{RNA}},\gamma_{\text{reg}}\}$ など、コーディング遺伝子(としてのDNA配列)、RNA遺伝子(をコードするDNA配列)、転写調節領域、など配列として機能性を有するもののカテゴリ集合として扱う
- ゲノムに関するデータは、ディプロイド(4カテゴリの作る順列が23x2本あるもの $\mathbf{B}$ ) のうち、父母由来を区別するかしないか、父母由来を区別しないながらハプロタイプを区別するかしないか、観察するのは全体か部分か、部分であるなら、部分集合のとりかたのルールは何か、4カテゴリを区別するか縮約するか、に関して簡略化したもの
- ゲノムは原則として個人を単位として不変であって、変化は、世代継承時に起きるものとする。そのルールは生殖ルールで定まる。ただし、個人内でも、由来細胞空間・由来時刻に関して不変でないとすることもある(癌ゲノム、免疫系遺伝子の再配列など)
トランスクリプトーム
- ある遺伝子 $\mathbf{G}_j$ のトランスクリプトを $\mathbf{t}_j = \{\mathbf{\tau}_{j,j'}\};\mathbf{\tau}_{j,j'} \in_{seq.tr} \mathbf{G}_j$ と表す。これは遺伝子配列から転写というルールで抜出し(てT,Uの変換をおこなうことも含む)た配列。そのような配列は一つとは限らない(スプリライスバリアント)ので集合扱い
- トランスクリプトはDNA配列の部分コピーであるから、DNA配列のどの部分のコピーであるかの情報はかなり落ちている(父由来DNAか母由来DNAかのどちらのDNA由来であるかの区別はつかないことが多い、短トランスクリプトはDNAのカウンターパートが一意に決まらないなど)
- トランスクリプトの量を全トランスクリプトについて測定したものは $\mathbf{T} =\mathbf{R}^{n_t};n_t=\sum_{j=1}^{n_g} n_{j'}$ のようにすべてのトランスクリプトバリアントを次元とする実数空間( $n_{j'}$ はj遺伝子のトランスクリプトバリアント数
- 小さい単位で考えれば、トランスクリプトームは１細胞単位での、特定の時刻での $\mathbf{R}^{n_t}$ 情報
- これを複数の細胞について足し合わせて(平均を取って)やることもできる
- 合算する単位はさまざま。個体内臓器・組織など
- データはこの観察を遺伝子カテゴリを絞ったり(コーディング遺伝子のみの検出系にするとか)、トランスクリプトバリアントを遺伝子単位でまとめたりして次元を下げることが多い(アレイは実験設計上、対象 $\mathbf{\tau}_{j,j'}$ を絞ってある。シークエンスはすべてを対象としている)
プロテオーム
- mRNAからタンパク質に翻訳されるときにさらにバリエーションが出るので $\mathbf{p}_{j,j'} = \{\mathbf{\pi}_{j,j',j''}\};\mathbf{\pi}_{j,j',j''} =_{seq.pr} \mathbf{\tau}_{j,j'}$ となる。ただし $=_{seq.pr}$ はmRNAからタンパク質への翻訳ルールに基づく関係
- プロテオームも細胞単位、時刻依存である点はトランスクリプトームと同じであるし $\mathbf{R}^{n_p}$ という構造であることも同じ
- ただし、プロテオームの場合、実体を分子の異同をすべて区別してその量とともに測定するか、というと、そうではない点が違う
- ペプチド配列(１次配列)を測定することもあれば、抗体の識別性(３次元と抗原特異性)とで測定することもある
- また、すべての分子の分離が難しいことから、GC-MSのように２つの測定方法で２次元化して測定することもある
- 細胞内の存在位置を限定して測定することもある(膜表面、細胞内画分別など）
- 測定手法の影響が大きくなるので、手法依存のバイアスは補正しないと比べられない(たとえばGC-MSのRetention timeは補正することの方が補正しないことよりも適正。トランスクリプトームの場合はバックグラウンドで補正するところまでは適正だが、その後の補正は場合によっては過補正になっている可能性もあるので注意が必要。１標本の値内での比率を比較対象にするのも、場合によっては可、場合によっては過補正していることになる)
メタボローム
- メタボロームは上述のゲノム・トランスクリプトーム・プロテオームにみられる、転写・翻訳の「固いルール」というたがが外れているので、うまくすれば、その流れ(と外界からの原材料の流入)を考慮して、継続した形で記載できるかもしれないが、現時点では、ほぼ、無理
- また、対象となる物質の総体を集合的に考えることはできるが、それを実験的に測定対象にすることは非現実的
- したがって、測定方法が限定した対象とその測定原理の制約との範囲で切り取られた一断面に関するデータを扱うことになる
- 特に測定原理に依存して補正することが適切であるような補正は過補正に注意して実施することが適当
フェノーム
- フェノームは意味合いがちょっと違う
- ゲノム〜メタボロームまでは細胞単位の話で、計測の戦略により細胞の集合の取り方が変わっていた
- フェノームは原則として個体に帰属する性質で、個体を構成する全細胞のネットワークが規定する状態のこと
- ただし、ある特定のフェノタイプには関係の強い細胞・組織・臓器があること、特定の時刻が重要であることは留意するべき。逆に言えば、そのような特定のフェノタイプに関する情報量の多い細胞・組織・臓器と時刻が何であるかを定めることが、「理解する」ということ。さらにその中で「フェノタイプの未来」を限定する力の強い情報を知ることも「理解する」ことの中で大きな位置を占める
- また、フェノームの特徴は、個体が持つ数多くの性質の総体である。フェノタイプ間には相互の関係があり、それと下部オーム層とが入り乱れた関係を持っている
- バイオマーカー層を含む臨床マーカー層・所見・兆候層というのは、フェノタイプに関する情報量の高いピースであるとも言える
- ゲノム-フェノタイプ解析(いわゆるGWASを含む)というのは、フェノタイプが個体の属性であって、ゲノムも大まかには個体の属性であるところから、解析がうまく機能しているものである
その他の特殊な解析
- フローサイトメトリー
  - これは似通った細胞の作る細胞集団を(表面)発現分子量で亜分類する解析
  - 発現量のデータなので $\mathbf{R}^n$ 型のデータになる
  - 個々の細胞の分化について解析するのが目的の場合には、仮説を持っていることが多い
  - 細胞分化において、個別の分子の発現パターンをスイッチのオン・オフで表したいという仮説がある場合もある。その仮説が正しいかどうかの厳密な情報はまだないけれど、どうもそうなっているらしいので、そうなっているらしさの検証も含めてやりたい、というようなもの。具体例ではリンパ球の分化
    - オン・オフならば、しかるべく $(0,1)^n$ になるような集約が必要
  - 別のパターンもあって、個別の分子の発現の多寡が連続的であると考えたいときもある。それは分子発現ネットワークのようなもののネットワーク状態の変化をとらえるような場合。具体例では癌細胞集団の特性把握のような…
  - 分化の場合は、データから木を取り出すことが仕事
  - たとえばSPADEとか