データサンプルとFASTQ

  • 次世代シークエンサーのデータサンプルはこちらから取れるようだ。
  • ここで使っている配列データファイルの形式がFASTQ形式で、その説明はこちら
    • 短い塩基の連なりとその塩基の一つ一つにクオリティ情報がついている
    • 1塩基に1文字のクオリティ情報をつけるために、クオリティは文字で表している
    • アルファベットや記号にはASCII(こちら)で対応数値が定められていますが、それを利用して量的情報を持たせます
      • 各配列の個々の塩基ごとにエラー確率e(1塩基について何度も読んだとして、その斉一率のようなものと思います)を出し
      • Phred quality は Q = -10 * log(e) / log(10) で定義します。
      • このQの値は正数ですが、これをASCII文字コードに対応させているということです(小数点とかは丸めてしまう)
    • そのほかにクオリティに関しては以下のような事項があります
      • Solexaは別のクオリティ情報(sQ)を持っているので、それをPhredクオリティに変換することもありますが、それは、Q = 10 * log(1 + 10 ** (sQ / 10.0)) / log(10)
    • Phredクオリティの他にCalibratedクオリティというのもあります。