論文の図を読む
- Estimation of rearrangement phylogeny for cancer genomesのFigure1では、癌細胞ゲノムに起きる、点突然変異とコピーナンバー変化、逆位などの生成と、諸変化が起きた後に観察できる状態の記載法と、観察から諸変化を逆問題的(こちら)に解くためのグラフ理論的アプローチを説明している
- が、少々わかりにくいので、Figure legendを補足しながら読んでみることにする
- フリーアクセスの論文なので、このぼかし加減ならOK…かな
- A
- 図の上半分を占めている
- 左上から、下に降り、その次に右上に上がって、下がる
- この順序は時間経過を表す
- 緑と紫は両親由来の2染色体を色分けしている
- 時間経過中にBreakが入るので、そこ(Break point 1,2,3:BP1,BP2,BP3)によって、染色体をセグメント1,2,3,4に分けてある
- 時刻t1の時点で、緑の染色体のセグメント2に点突然変異aが入っている。同様に紫の染色体のセグメント4に点突然変異bが入っている
- 時刻t1に緑の染色体のBP1,BP2にブレイクが入って、inverted duplicationが起きている。その結果、時刻t1の下側では、緑の染色体が1,2,-2,3,4の並びになっている。-2は逆位のセグメント2を表している。逆位の2にも変異アレルaがある。ただし、その位置は逆位であることを反映した位置にあることに留意
- 時刻t3では紫の染色体のセグメント4に点変異cが入っている
- その上でBP3がブレイクして、breakage-fusion-bridge cycleが入った結果、緑のセグメント4はなくなっている。また、その配列は1,2,-2,3,-3,2,-2,-1となっている
- 時刻t3では緑の染色体の最も左のセグメント1に変異dが入り、また、緑の染色体の最も右のセグメント-1に変異eが入っている
- その上で、緑の染色体のフル・重複が起きている
- 時刻t4では、緑の染色体の上の方の最も右のセグメント-1に変異gが入り、紫の染色体のセグメント3に変異fが入っている
- これが全経過
- B
- 経過は隠されている。時刻t4において実験して(並列シークエンシングとか)することで、情報をとって、経過を解明したい。そのために取得した情報をどのように整理するかを説明しているのがB
- 図全体の下半の左側
- 3つの整理がi,ii,iiiと分けて示されている
- i
- セグメント1,2,3,4のそれぞれが何コピーずつあるか。緑・紫の色別の本数ではなくて、多い方(Major)が何コピーあり、少ない方(minor9が何コピーあるかの表示になっている
- 正常細胞の配列を用いて「色」を分けるのは実際のデータ処理上ではやりたくない、ということの裏返しなのだろう
- ii
- 「正常配列」ではありえない連結箇所を記載している
- "[2,-2]""は順方向のセグメント2と逆方向のセグメント-2との連結であることを示している
- そのような連結箇所が「正常ゲノム配列」のどこになっているかはブレイクポイントで示している。連結箇所は「貼り合せ」なので、2つの連結箇所で構成される
- iii
- 点変異がどのセグメントにいくつあって、それぞれが、何コピーあるかを表にしたもの
- 1行目は、セグメント1に関する情報
- セグメント1はd,g,eの3変異を持つ。そのうち、gは緑の染色体の上に描かれたものの最も右の-1セグメントにしかないから、multiplicityは1。同様にdは緑の最も左のセグメント1にあって、それは2つに重複しているので、これのmultiplicityは2。同様にeは緑の染色体の最も右の-1セグメントにあり、重複2本にあるのでmultiplicityは2。結局、multiplicityが1の変異が1個、multiplicityが2の変異が2個なので、そのように書いてある。セグメント1のコピー数は全部で5だが、「重複(同じ色のセグメント)」の最大値は4なので、表では、4までは数値が入り、それより大きい数字は、「-」としてある
- C
- グラフを使って染色体の変化を再構成する手順を2つのグラフを用いて説明している
- 図全体の中の右下を占める
- i Allelic graph
- セグメント1,2,3,4を「丸」にしている。ただし、「点」ではなく、右と左の2箇所に「連結ソケット」を持った「丸」
- 「丸」の上に書いた数字は、セグメントの重複度
- エッジは、「丸」と「丸」をつなぐ。自身から出て自身に戻るエッジも許可されている
- エッジの上の数字は、「そのような連結」の個数を表す
- 緑のセグメント1は4重複で、そこから出るエッジが担える「連結個数」も4になっている
- 緑のセグメント2は8重複。その「丸」からは、セグメント1へのエッジが個数4、セグメント3への破線は個数0(これはセグメント2の右側のソケットとセグメント3の左側のソケットをつないぐエッジ)、セグメント2からセグメント3へはもう一つ実践のエッジがあり、この個数は4。これは、セグメント2の左側のソケットとセグメント3の左ソケットの連結の個数。また。セグメント2とセグメント2との連結もあり、それは4個。そのルーピングしたエッジも描いていある
- コピー数の少ない染色体(色分けされている)を下段に描くことになっているので、コピー数の多少の逆転が起きると、色別染色体が交叉する。図では、セグメント3-4の間
- ii Somatic graph
- iのallelic graphでは、セグメント間の「本来あるべき」つながりが破線で描かれていたが、これは染色体上では「ブレイクポイント」
- このブレイクポイントについて「連結ソケット」を左右に意識した形で四角形で表してある
- その連結具合(本来あるべきではない)のみを表したもの
- さて、逆問題を解こう
- Somatic graphができたとする
- ゲノム構造変化のタイプごと(Terminal Deletion,Breakage Fusion Bridge, Interstitaila Deletion, Tandem Duplication, Inverted Duplication, Inversion, Translocation, Unbalanced Translocation, Insertion)対応するSomatic graphがある。これは、「単位somatic graph」である。その変化は行列として表すこともできる。
- ゲノム構造変化のイベントがどのような順番で起きたかは、イベント数nの階乗n!あるので、そのどれが、「観察状態」をもたらすかを調べればよい
- 最後に点変異箇所の情報を用いて変異の発生時期をゲノム構造変化時点に対する相対的な時刻として定めればよい