2013-12-04

発現量とスプライスバリアントの比率との総合比較

上記の論文(次世代シークエンサーを使ったゲノムとトランスクリプトームに関するNature論文で、本文は(articleだけれど)6ページ、メソッドを中心としたサプルが71ページという論文(こちら"Transcriptome and genome sequencing uncovers functional variation in humans"))で、遺伝子のトランスクリプトバリアントごとに定量をし、そのバリアント別定量結果を複数サンプルについて集め、そのばらつき全体を、バリアントに関する比率ばらつきと、発現量のばらつきとに大別し、総合的に評価する指標が扱われていた
この指標について調べ物(Esimation of alternative splicing variability in human populations)
どんなデータか
- ある遺伝子が $n$ 種類のトランスクリプトバリアントがあるとき、あるサンプルiで $X_i=(x_{i,1},x_{i,2},...,x_{i,n})$ なる発現定量結果が得られたとする
正単体上の点と見る
- $F_i = (f_{i,j})=(\frac{x_{i,j}}{\sum_{j=1}^n x_{i,j}}$ はトランスクリプトバリアントの比率であり、これは $\sum_{j=1}^n f_{i,j} = 1;\f_i \ge 0$ であるが、(n-1)正単体上の点に対応づく
Hellinger距離
- 正単体上の点の違いを距離としてはかるのに、Hellinger距離というものがある
- $\sqrt{\sum_{j=1}^n (\sqrt{x_{1,j}}-\sqrt{x_{2,j}})^2}$
- これだと、たとえば(0.5,0.5)と(0.55,0.45)間の距離が0.050で(0.9,0.1)と(0.95,0.05)との距離が0.095になるという。これに比べ、ユークリッド距離では、どちらも0.071で変わらない。この２つの値ペアに違いを見出す方が、今のデータでは適切だと考えるので、これを使いたい

Hellinger.dist <- function(x,y){
	sqrt(sum((sqrt(x)-sqrt(y))^2))
}

Spatial median
- いくつものサンプルがあって、それを点で表すと、点の雲ができる。そのばらつきの具合を表すのに、Spatial medianというのを使うとよいとのこと
- これは、Spatial medianをとしたときに、距離関数を用いて、サンプル数についてで計算されるを最小化するようなであって、収束させることで計算するらしい
  - ちなみに、距離関数としてユークリッド距離を使う場合にはICSNPパッケージのspatial.median()関数があるようだ
The relative importance of variability in gene expression and variability in alternative splicing into individual transcript variability
- これは上記とは別に定義したもので、量とバリアント比のばらつきとの相対的大きさを測るためのもの
- $X_i=(x_{i,1},x_{i,2},...,x_{i,n})$ なるn次元空間上の点をとり、そのn次元分散を算出し $V_t$ とする
- これを最小二乗法であるトランスクリプトバリアント比の直線に回帰する。これは原点を通りあるトランスクリプトバリアンス比方向の直線を、その直線への各サンプルからの垂線の距離を最小化することで得る
- このようにして得られるこの直線上の点を用いて、各サンプルの「発現量の推定値」として、その分散を計算し、それを $V_{ls}$ とする。垂線の足の長さの方は $V_t-V_{ls}$ であるが、これが「決め打ちにしたトランスクリプトバリアント比率」と各サンプルのそれとの違いを分散としたものであるので、「量成分」：「比率成分」に分けたことになる、と、そういう具合
- ※　これをするなら、トランスクリプトバリアント比率は上述のspatial medianにする、とか、もう少し工夫ができそうには思うのだが…まあ、シンプル is ベターと言うところかもしれない