iPOP特徴量抽出・相関検出

  • こちらの論文(Personal Omics Profiling Reveals Dynamic Molecular and Medical Phenotypes )
  • データ解析に関しては、Experimental ProceduresのExtended タブ(こちら)
  • 以下、その手順
  • データを収集
    • 時系列で
  • データのタイプ
    • Whole Genome Seq.
    • Whole Exom Seq.
    • Whole Transcriptome Seq.
    • Small RNA Seq.
    • Shotgun Proteome
    • Serum Metabolome
    • ImmunoSorbent CRP
    • Serum Cytokines
    • Serum Chemistry
    • Autoantibodyrome
    • Telomere Length
    • von Willebrand Factor
  • 解析の枠組み
    • 上記のタイプごとにデータをQC
    • タイプを越えて(multi-omicsで)解析
  • タイプごとの処理
    • 扱うための情報集約
    • 扱うための加工
      • ノイズに埋もれているとみなせるものを排除
      • 時系列解析に耐えないもの(複数の観測時点で値が取れていないもの)を排除
      • 意義のあるもののみを残す
        • FDR処理など
    • 扱うための標準化
    • 経時処理
      • 多数の観測時点がある場合には、フーリエ変換して、周期的要素に分解(periodogramを作成)して、periodogramの特徴量を解析対象とする
      • 多数の観測時点があって、周期的反応を見たいときなどは、(こんな感じ)
      • 時点数が少ないとき
        • すべての時点について単調増・単調減を考えているときは、(線形)回帰など、単純なものを
        • 初期スパート、後期減衰など、一定のパターンを想定しているときは、そのパターンごとに時点の順序を入れ替えて、(線形)回帰など
        • 仮説フリーで行うなら、全時点の順序を無視して
  • 各論
    • Whole Genome, Exome, その他ゲノム多型
    • mRNA
      • 遺伝子単位に統合
      • 低発現遺伝子の足きり
      • 補正
        • 個々の実験単位で
        • 異なる時点にわたっての補正
    • プロテオーム・メタボローム
      • 分子単位に統合
      • 低発現画分の足きり
      • (過多画分の足きり)
    • (論文とは関係ないけれど)FACS
      • 特定の血球画分における、膜タンパク発現として扱う
      • 表面マーカーによって分類される細胞画分の量的変化として扱う(表面マーカーによる比率のみでなく、血球数に照らした絶対値も必要)
  • その他
    • 複数サンプルの場合
      • 本論文は、1個人の経時的プロファイル
      • 複数人の経時的プロファイルの場合には、個人を分類するラベル(フェノタイプなど)の情報を加えたり、その上で、さらに個人ごとに異なる挙動を考慮したければ、(個人に関する)ランダムエフェクトを入れた上で、適宜、回帰などを(参考→こちら