次世代シークエンサーデータにまつわることのメモ
- こちらに、"Next-generation sequence analysis"(Nature Biotechnology 29,45–46(2011))という記事がある
- 4本の論文が引用されている
- [http://d.hatena.ne.jp/ryamada22/20110711/1310348323:title=Goecks, J., A. Nekrutenko, et al. (2010). Genome Biol. 11: R86.
- [http://d.hatena.ne.jp/ryamada22/20110711/1310348324:title=Guttman, M. (2010). Nat. Biotechnol. 28: 503-510.
- [http://d.hatena.ne.jp/ryamada22/20110711/1310348325:title=Ng, S. (2010). Nat. Genet. 42: 30-35.
- Trapnell, C. (2010). Nat. Biotechnol 28: 511-515.
- これらの論文において、NGSデータ解析でどんな点を気にしているかを列挙してみる
次世代シークエンサーデータにまつわることのメモ(論文4)
- Trapnell, C. (2010). Nat. Biotechnol 28: 511-515.
- アプリ:Cufflinks
- この論文で示している方法のTopHat以降を実装したアプリ
- アプリ2:TopHat
- RNA-seq
- 既知transctipts vs. 未知transctripts
- 新規transcript discovery
- 新規transcipt variants
- 新規transcript start sites(TSSs)
- 新規splice isoforms
- transcript 定量
- シークエンス配列長(25bp vs. 75bp)
- paired/non-paired reads
- 発生上の時系列変化
- TSSs, splice isofroms
- splice junctionsの扱い
- Figure1 がこの論文の「核」
次世代シークエンサーデータにまつわることのメモ(論文1)
- Accessibility/Reproducibility/Transparency
- Goecks, J., A. Nekrutenko, et al. (2010). Genome Biol. 11: R86.
- 大規模データに対して計算機を使って研究するときの基礎留意点
- AccessiblityとReproducibility
- さらにTransparencyを加えて
- アプリ:Galaxy
- Accessibility/Reproducibility/Transparencyをウェブインターフェース化することにより、また、その経過を可視化して、記録することで達成することを目指したもの
次世代シークエンサーデータにまつわることのメモ(論文2)
- Guttman, M. (2010). Nat. Biotechnol. 28: 503-510.
- アプリ:Scripture
- RNA-seq
- "Ab initio" アプローチ
- Variations in ;
- transcription start sites
- 3' end sites
- internal coding exons
- non-coding genes
- lincRNA : large intergenic noncoding RNA
- antisense loci
- Fig1が「核」
次世代シークエンサーデータにまつわることのメモ(論文3)
- Ng, S. (2010). Nat. Genet. 42: 30-35.
- Exome sequence
- A rare mendelian disorder
- Depth
- Coverage of exons
- single-end seqs
- targetted enrichment
大規模データに対して計算機を使って研究するときの基礎留意点
- Goecks, J., A. Nekrutenko, et al. (2010). Genome Biol. 11: R86.
- 3要素
- Accessibility
- Reproducibility
- Transparency(これについてはこの記事では扱わない)
- Accessibilityについて
- プログラミング・情報学系のスキルが必要
- ツールをインストールできなくては、始まらない
- ツールの引数が何で、それに何を与えるのか、について理解できなくては、回せない(回せても結果に責任が持てない)
- 複数のアプリケーションをつないで実行するノウハウがないと立ち行かない
- 解決へ向けた動き
- チュートリアルの整備
- 解析ツールの統合パック化
- Bioconductor
- Bioperl
- Web-based interfaces(EMBOSS)
- プログラミング・情報学系のスキルが必要
- Reproducibilityについて
- Accessibilityより重大・深刻
- 再現できるような実行ログを残して公開する
- この実行ログに関する1文が理解できれば、大丈夫、その意味があいまいだったり、「理解している」つもりで「理解していな」ければ、再現性の担保は不可能
- このスキルの習得にはプログラミング・情報学系の教育が必須
- Reproducibilityを困難にする要因
- 欠測値の存在とその取扱い→参考(Nat.Genet. 2009, 41:149-155 マイクロアレイデータ解析の再現可能性に関する論文)
- 次世代シークエンサーデータでは…
- Reproducible Research System(RRS)の導入による改善(解決)への試み(Galaxy)