Taxonomy3

Taxonomy3なる商業ベースの多変量遺伝因子解析ツールがあるそうです。

  • サイト記事を読んだ限りでの感想は以下の通り。
    • ケースやコントロールにも「遺伝要素の色が濃いことによって、ケースやコントロールになっている人」と、「非遺伝要素の色が濃いことによって、形質が決まっている人」がヘテロにいるので、サンプルの形質ではなく、「形質を決める遺伝要素の強さ」を推定してやって、使いましょう、ということのよう。
    • その計算がLog Bayes Factorsの計算。
    • この部分の計算が、集団構造化があるとき、集団構造がケースとコントロールとで違っていて、関連検定統計量の分散インフレがあるときに、影響を受けそうです。
      • その影響がどういう影響でどのくらい強いのか。
      • それが、後半のPCAも集団構造の違いを抽出する方法なので、同じ情報ソースから2回の情報抽出になっていそうで、その部分の正当化、とかがなされている方が安心です。
    • また、マーカー間のLD関係は、いわゆるPCAにも影響を与えますが、、LBFにも影響をもたらすとお思いますので、万能でないことにも注意が必要と思います。HLA領域のマーカーを使っているときとかは特に注意した方がよいと思います。
    • あとは、ツール全体が、SNPだけではなく、どんなデータ型にも対応することを基本にしているとか、サブフェノタイプを定義してそれについても解析をする、とか、製薬会社内で育ってきたツールならではの、対応の良さ、は使い勝手がよさそうな印象があります。
    • そのほかの実用的な側面ですが、結果の視覚的提示部分もよく練れているでしょう。
    • マルチプルテスティング補正については、サブフェノタイプ定義を色々入れてやって、いじり倒すときに、全部をひっくるめて『総合的』に出してくれるものと期待しますが、その点は分かりませんでした。『総合的』に出すには、モンテカルロパーミュテーションベースでやるしかだめでしょうから、やるならそれでやっているものと思います。
    • 統計学の基本の基本のところなのに断定できないところですが・・・
      • SNPでのゲノムスキャンの場合には、SNPがすべて 00 01 11といった共通のデータ型であるので、それをLBFで補正することのメリットは、あるのかもしれないし、下流で行っているPCAが何とかしてくれるような気もしますが、SNP以外の要素(検体の臨床情報とか)を説明変数に入れ始めると、「整えて」おいたほうがよいのかも知れません。統計学的には、結論が出ている問題のようにも思います。