STRINGのinteraction confidence score

  • STRINGと言うタンパク-タンパクネットワークデータベース・ツールがある(こちら)
  • タンパク-タンパク間に数値が出てくるのだが、その数値がどう言う由来なのかがわかりにくい
  • こちらのはてなブログの記事

kazumaxneo.hatenablog.com
に「STRINGのインタラクションスコアは、特定のインタラクションの強さまたは特異性を表すものではなく、利用可能なすべての証拠が与えられた場合に、0から1のスケールで関連が真であるというおおよその信頼を表すことを意味する。 STRINGのスコアは、両方のタンパク質パートナーに既に機能的にアノテーションが付けられている関連付けのサブセットを使用してベンチマークされる。このため、KEGGパスウェイマップ(ref.41)がゴールドスタンダードとして使用されているため、機能的関連付けの粒度も暗黙的に決定される。」と説明がありますが、わかったようなわからないような。。。

  • こちらの論文

academic.oup.com
に英語で、対応するのかもしれないと思われる記述があります。

  • "The scores in STRING are benchmarked using the subset of associations for which both protein partners are already functionally annotated; for this, the KEGG pathway maps"
  • 相変わらずよくわからないです・・・
  • ここ

www.blopig.com
に、それっぽいタイトルの記事がありますが、これも詳しくはよくわかりません。

  • わかるのは、実験データや、種間での類推などかなり雑多な情報をひっくるめてスコアリングしているらしいことくらいでしょうか。
  • マニュアルらしきところのQ&Aに
Q:	
How are scores computed?
A:
The combined score are computed by combining the probabilities from the different evidence channels, correcting for the probability of randomly observing an interaction. For a more detailed description please see von Mering, et al Nucleic Acids Res. 2005
  • と出てきて、ようやく、オリジナル出典があるので、2005年の論文www.ncbi.nlm.nih.govへ行くと
After assignment of association scores and transfer between species, we compute a final ‘combined score’ between any pair of proteins (or pair of COGs). This score is often higher than the individual sub-scores, expressing increased confidence when an association is supported by several types of evidence (Table ​(Table1).1). It is computed under the assumption of independence for the various sources, in a naïve Bayesian fashion. It is thus a simple expression of the individual scores:
  • とあり、雑多なリソースからassociationのサブスコアを出し、それをまとめることが書いてあります。
  • Subscoreをまとめるときは、雑多な情報を全て平等に扱って、
  • S = 1- \prod (1-Si)とまとめるようです。