グラフ化するゲノム情報を集める
- ヒトゲノムプロジェクトによって「ヒトのゲノム配列はこう」というのが発表されて15年くらい経ちます
- 最近の動向は、「1本」のゲノム配列では表しきれない多様性があるので、それをなんとかデータとしてハンドリングできる形にしましょう、となっている
- まずは、ルールを決めて登録して
- 次にその複雑な情報の適切な納め方を決めましょう
- という手順
- 第1段階のルールを決めた登録はGenome Reference Consortiumが仕切っている(感じ)(Modernizing Reference Genome Assemblies(ペイパー))
- 第2段階の情報の適切な納め方のコンセンサスについては、グラフベースのそれがよさそうと言うところまでは得られているらしい。視覚化するなら、US Santa Cruzのこれとか、グラフ理論的なこれとかなのでしょうか
- さて。
- そのGenome Reference Consortiumのウェブサイトなのですが、用語の定義集とかが一応はあるけれど、定義なしに使っている用語とかもあって、結構わかりにくい
- というわけで、提示されている用語集をかいつまみつつ、提示されていない用語についても確認しておこう
- まずは、定義されている用語集がこちら
- Assembliesを説明するための用語
- Alternate locus
- Assembly
- たくさんの配列ファイルを集めて、その並び方を定めた一塊のこと。うまくアラインメントされていない配列もそれに含まれることももちろんある。ヒトに唯一のゲノム配列を決めていたときには、それが「Assembly」だったが、Alternate lociを許してレファレンス配列を定める今は、Alternate lociも含めたものになる。Assemblyの中に複数のAssembly unitsを置き、一つのunitは「唯一配列のようなもの」であり、Alternate locusはもう一つのunit。唯一配列を置くとしたら、これ、というのはPrimary assemblyと呼ぶ
- Diploid assembly
- 配列を考えるときはhaploidのそれを考えるのが普通だが、あるハプロイドのペアを持ったディプロイド個人がいる、ということを言うためには、Diploid のそれとして取り扱う
- Genome Patch
- Unlocalized/Unplaced sequences
- Unlocalized:どの染色体に属するかは決まるが、他の配列との相互位置関係・向きが決まらない配列
- Unplaced: 帰属する染色体が決まらない配列
- Assembliesを構成するための用語
- AGP File
- 複数の配列登録ファイルを紡いでコンティグ・スキャフォルド・染色体配列を作り上げるが、その紡ぎ方を書いたファイル
- Contig
- 配列登録ファイルを紡いで1つらなりにしたシークエンス。ギャップがないものをcontigと呼び、ギャップがあるものをスキャフォルドと言うが、区別を曖昧にして使うこともある
- Component
- 配列登録ファイルに基づく、生配列
- Join
- 配列と配列とののりしろ重なり部分
- Scaffold
- スキャフォルド配列。複数配列を紡ぎつつ、ギャップがあるもの。向きが定まっていないものもあるかもしれない
- Switch point
- Component配列同士ののりしろの終わりの一
- TPF Tiling Path File
- コンティグ・スキャフォルド・染色体配列をComponent配列から紡いだときの順序情報を提供するファイル
- (AGPファイルと役割がかぶるが、おそらく)ゲノム配列のグラフ化を念頭に置いた、「配置順」を効率よく取り扱うためのファイル
- AGP File
- その他の用語
- Component配列同士をcontig等に組み上げるときの、複数の配列同士の関係の用語
- Full Dovetail (鳩の尾、と呼ばれる、木工用語。日本語では蟻継ぎ。2つの材木がきっちり組みあがり、端に余りが出ない):きれいに配列をタンデムにつなげる最善の条件
- Half Dovetail 2つの端のうち、片方だけ、あまりなく一致、、もう片方は余りあり
- Contained 短い配列が長い配列の内側に収まる
- Short/Blunt オーバーラップが短い(基準は < 50 nt)
- Issue
- 配列を修正したり、Alternate locusとして登録したり、と言う作業はヒトによるcurationが必要。そのCuration作業をIssueとしてピックアップする。Issue IDを与える。Issue IDは HG-xxxxというものとなる(http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/human/issues/:Issuesのリスト)
- Issueの属性
- Type (Gap,Clone Problem, Path Problem, Variation, Localization Problem,Missing sequence, GRC Housekeeping, Unknownに分かれる)
- Status (Resolved, Unresolved, Open, Under Review, Awaiting Elec Data, Awaiting Exptl Data, Stalled, Reopened, Awaiting External Info, Continuing Investivationに分かれる)
- Fix version : Issueは決着したら、それを新規リリースに反映する必要がある。そのFixリリースバージョン(将来の予定も含む)
- Scaffold type (問題解決後、何になったか。ALT:Alternate locus, NOVEL: Novel patch, FIX: Fix patch,Noneに分かれる)
- Component配列同士をcontig等に組み上げるときの、複数の配列同士の関係の用語