Gene Set Enrichment Analysis

  • Evaluating Gene Set Enrichment Analysis Via a Hybrid Data Model (元ネタ論文)
  • 基本
    • マイクロアレイデータで、遺伝子発現の差があるかどうかを見る
    • すべての遺伝子を個別に調べるとマルチプルテスティングで希釈されて見えなくなるので、遺伝子をセットにして:
      • パワーを上げる
      • 既存知識に基づくことで解釈しやすい結果を得る(既存知識でバイアスをかける、ともいえるが)
      • 根っこの遺伝子(主役)が必ずしも大きな発現量差を示しているとは限らないので、子分になって発現量差を大きくしている遺伝子とまとめて解析することで、見つかりにくい親分遺伝子(master genes)を補足しやすくする
    • 望むらくは、再現性も高める
  • 分類
    • GSEAはいくつもあるが、グループ分けできる。グループ分けは何をもって「帰無仮説」とするかで決まる
    • Q1グループの帰無仮説
      • ある遺伝子セットに含まれる遺伝子たちがその他の遺伝子たちと比べて、発現差が大きいわけではない(遺伝子セット1個 vs. その他の遺伝子全部(その他の遺伝子がセットに分かれることを考慮しない)
    • Q2グループの帰無仮説
      • ある遺伝子セットに含まれる遺伝子たちに、発現差が認められない(個々の遺伝子の発現差をセットでまとめ上げ)
    • Q3グループの帰無仮説
      • ある遺伝子セットに含まれる遺伝子たちの発現差が、他のグループの遺伝子セットに含まれる遺伝子たちの発現差と変わらない(遺伝子セット vs. 遺伝子セット)
  • GSEA法のQ1,Q2,Q3分類
  • GSEAに望まれること、2つ(特にサンプルサイズが小さいときに)
  • GSEAのいろいろな手法をオプションで使い分けるパッケージR(Bioconductor)‘EnrichmentBrowser'(解説文書)
    • 発現差が本当にあるのかどうかが p値として正確にでること
    • 発現差がある遺伝子セットに順位がつくとして、その順位が安定していること
  • この論文では、"master gene"があって、それ自身の発現差は小さい(かもしれない)が、それが下流に影響を与え、結果としてmaster geneを含んだ遺伝子セットが「発現差あり」と検出されるかどうかに着目している
  • 基本性能
    • どの手法ももちろんサンプル数が多い方がよいのだが、サンプル数を増やせば、master geneが着実に拾えるようになるかと言えば、それほどサンプル数が効かない手法もあり、効く手法もある
    • おおざっぱに言えば、Q2タイプが底堅さが高い、と述べられている
    • ここでのサンプルサイズの小ささとは20、40、60サンプルとか