PI-HAT
- plinkツールについての概説はこちら
- その中で、血縁関係不明のサンプルについて、サンプルペアのIBDを推定するオプションがある。指標はPI-HAT
- これについては、plinkの論文(Am J Hum Genet. 2007 September; 81(3): 559–575.)の565ページからの記載を参照。簡単に言えば・・・
- 多数の(ゲノムワイドの)ジェノタイプデータをサンプル間で比較すると、共通アレル本数が、0,1,2のいずれかで得られる。これはIBSである。
- IBDとIBSの関係
- アレル頻度が与えられたときのIBDとIBSの関係
- 観測データが与えられたときのIBDとIBSの関係
- サンプルペアのIBD推定
- サンプルペアがあり、多数のマーカーのジェノタイプデータがあるとき、そのペアについて、
- このようにして、IBDが0,1,2である確率が推定できたので、IBDの推定値を、この3推定値から算出する。それがPI-HATである。
- PI-HATがほぼ1であるとき。これは、IBDが2であろう、ということであるから、一卵性双生児(かサンプル重複)
- PI-HATが0.5程度であるとき。もしIBDが1である推定確率が1で、IBDが0、2である推定確率が0であれば、PI-HATの値はこのようになり、その意味するところは「親子」。ただし、IBDが1である推定確率が1よりかなり低く、IBDが0,2である確率がそれぞれ、そこそこ存在し、その結果PI-HATが0.5付近ということであれば、親子なのにIBSが0なSNPが相当数存在することは考えにくいので、「親子」とみなさず、かなり近い関係、とみなすことが適当。したがって、親子の判定にはIBS=0の比率が0に近いかどうかを用いるほうが妥当。
- plinkのpi-hatの算出補正とその影響についてはこちら。