第6限 タグSNPの選定



タグSNPとは、ある領域にに多数の多型が存在し、それらすべてを解析する代わりに、その領域の単一SNP関連解析・ハプロタイプ関連解析を効率よく行うために選ばれるSNPのセットのことである。弁別したいハプロタイプのセットとタグ化による関連解析精度の劣化とが、タグSNPセット選択に影響する主要素である。「弁別したいハプロタイプ」としては、領域に存在する全ハプロタイプのうち、一定頻度以上のハプロタイプを指定することが多く、その他には、ある特定のハプロタイプについてはなんらかの事情で弁別対象として加える必要などが生じる。また、「その精度」というのは、次のようなことである。領域のLD関連解析上、類似度の高い多型は関連検定上も似通った統計量(カイ自乗値など)を伴うから、代用可能であるとして、代用可能な多型をタグセットに入れ、それ以外をはずすことである。方法としては大きく2つある。弁別したいハプロタイプを完全に弁別できるタグSNPセットを求める方法と、その厳密性を放棄し、近似解を持って、解とする方法である。完全解を求める方法は、すべてのハプロタイプを弁別できるタグ多型のセットであり、関連検定上、劣化はないが、完全解の1セットを求めるだけでも、その計算量は膨大となりえる。また、完全解のすべてを求める場合には、計算量が膨大となることは間違いない。したがって、多型数の多い領域については、完全解を求めず、近似解を求めることとなる。タグSNPの探索は組み合わせ問題である。組み合わせ問題に伴う計算量については、こちらの記事を参照。また、タグSNPセットは、同じ条件を満たす(弁別するべきハプロタイプセットも同一で、近似の程度も同じ)ものが複数得られることが通例であるが、これは、組み合わせ問題で一般的な事象である。組み合わせ問題と最適解については、こちら。特に複数の最適解(パネート最適解)についてはこちら