大規模データに対して計算機を使って研究するときの基礎留意点

  • Goecks, J., A. Nekrutenko, et al. (2010). Genome Biol. 11: R86.
  • 3要素
    • Accessibility
    • Reproducibility
    • Transparency(これについてはこの記事では扱わない)
  • Accessibilityについて
    • プログラミング・情報学系のスキルが必要
      • ツールをインストールできなくては、始まらない
      • ツールの引数が何で、それに何を与えるのか、について理解できなくては、回せない(回せても結果に責任が持てない)
      • 複数のアプリケーションをつないで実行するノウハウがないと立ち行かない
    • 解決へ向けた動き
  • Reproducibilityについて
    • Accessibilityより重大・深刻
    • 再現できるような実行ログを残して公開する
      • この実行ログに関する1文が理解できれば、大丈夫、その意味があいまいだったり、「理解している」つもりで「理解していな」ければ、再現性の担保は不可能
      • このスキルの習得にはプログラミング・情報学系の教育が必須
    • Reproducibilityを困難にする要因
  • 次世代シークエンサーデータでは…
    • 次の項目のために、AccessibilityとReproducibility上の困難が増大する
      • 標準方法の未確立
      • データサイズの巨大化
      • ツール・アプリの複雑化・新ツールの追加
      • 実験プロトコル・出力プロトコルの多様化・変化
  • Reproducible Research System(RRS)の導入による改善(解決)への試み(Galaxy)