PI-HAT

  • plinkツールについての概説はこちら
  • その中で、血縁関係不明のサンプルについて、サンプルペアのIBDを推定するオプションがある。指標はPI-HAT
  • これについては、plinkの論文(Am J Hum Genet. 2007 September; 81(3): 559–575.)の565ページからの記載を参照。簡単に言えば・・・
  • 多数の(ゲノムワイドの)ジェノタイプデータをサンプル間で比較すると、共通アレル本数が、0,1,2のいずれかで得られる。これはIBSである。
  • IBDIBSの関係
    • 今、一卵性双生児(IBD=2)の場合、IBS=2の確率が1、IBS=1の確率、IBS=0の確率は0である。
    • 親子(IBD=1)の場合には、IBS=1かもしれないし、IBS=2かも知れないけれども、IBS=0ではない。
    • 他人(IBD=0)の場合には、IBS=0,1,2のいずれもとりうる。
  • アレル頻度が与えられたときのIBDIBSの関係
    • SNPのアレル頻度が与えられたとき、IBDの状態に応じて、IBSが0,1,2のそれぞれを観測する確率は計算できる
  • 観測データが与えられたときのIBDIBSの関係
    • 観測データからアレル頻度を推定するとバイアスがあるので、PI-HATではその補正を入れているが、基本的には、IBDの状態に応じてIBSの値別に確率を計算してやる。
    • それが、論文のTable1である。
  • サンプルペアのIBD推定
    • サンプルペアがあり、多数のマーカーのジェノタイプデータがあるとき、そのペアについて、
      • IBDが0としたときにIBSが0であるべきSNP数に対する、実際にIBSが0であるSNPの数の割合が、このペアのIBDが0である確率であり、
      • IBDが1としたときにIBSが1であるべきSNP数に対する、実際にIBSが1であるSNPの数のうち、IBDが0のときにIBSが1であるべきSNP数を差し引いた数の割合が、このペアのIBDが1である確率であり、
      • IBDが2としたときにIBSが2であるべきSNP数に対する、実際のIBSが2であるSNPの数のうち、IBDが0か1かでIBSが2となるべきSNP数を差し引いた数の割合が、このペアがIBDが2である確率である
    • このようにして、IBDが0,1,2である確率が推定できたので、IBDの推定値を、この3推定値から算出する。それがPI-HATである。
    • PI-HATがほぼ1であるとき。これは、IBDが2であろう、ということであるから、一卵性双生児(かサンプル重複)
    • PI-HATが0.5程度であるとき。もしIBDが1である推定確率が1で、IBDが0、2である推定確率が0であれば、PI-HATの値はこのようになり、その意味するところは「親子」。ただし、IBDが1である推定確率が1よりかなり低く、IBDが0,2である確率がそれぞれ、そこそこ存在し、その結果PI-HATが0.5付近ということであれば、親子なのにIBSが0なSNPが相当数存在することは考えにくいので、「親子」とみなさず、かなり近い関係、とみなすことが適当。したがって、親子の判定にはIBS=0の比率が0に近いかどうかを用いるほうが妥当。
  • plinkのpi-hatの算出補正とその影響についてはこちら