大規模データに対して計算機を使って研究するときの基礎留意点
- Goecks, J., A. Nekrutenko, et al. (2010). Genome Biol. 11: R86.
- 3要素
- Accessibility
- Reproducibility
- Transparency(これについてはこの記事では扱わない)
- Accessibilityについて
- プログラミング・情報学系のスキルが必要
- ツールをインストールできなくては、始まらない
- ツールの引数が何で、それに何を与えるのか、について理解できなくては、回せない(回せても結果に責任が持てない)
- 複数のアプリケーションをつないで実行するノウハウがないと立ち行かない
- 解決へ向けた動き
- チュートリアルの整備
- 解析ツールの統合パック化
- Bioconductor
- Bioperl
- Web-based interfaces(EMBOSS)
- プログラミング・情報学系のスキルが必要
- Reproducibilityについて
- Accessibilityより重大・深刻
- 再現できるような実行ログを残して公開する
- この実行ログに関する1文が理解できれば、大丈夫、その意味があいまいだったり、「理解している」つもりで「理解していな」ければ、再現性の担保は不可能
- このスキルの習得にはプログラミング・情報学系の教育が必須
- Reproducibilityを困難にする要因
- 欠測値の存在とその取扱い→参考(Nat.Genet. 2009, 41:149-155 マイクロアレイデータ解析の再現可能性に関する論文)
- 次世代シークエンサーデータでは…
- Reproducible Research System(RRS)の導入による改善(解決)への試み(Galaxy)