Haploviewに実装された諸ツールの出典
HaploviewはHapmapプロジェクトデータからのデータダウンロードに対応したSNPデータの連鎖不平衡解析ツールである。そのウェブサイトはこちら。その公開は論文化に先立ってなされていたが、その概要の論文化は2005年に入ってから(Barrett JC, Fry B, Maller J, Daly MJ. Haploview: analysis and visualization of LD and haplotype maps. Bioinformatics. 2005 Jan 15 [PubMed ID: 15297300](Haploviewホームページによるフリー(多分)アクセスPDF))
同論文で触れられている諸法の出典は以下のとおり
- Pairwise LD
- D', r^2(概説、ただしはr,は)
- LD指標値の信頼度としてのLOD値に関する説明は遺伝解析パッケージArlequin 2.000のマニュアルのSection 7.1.4.2 in page 86 を参照
- Pairwise-LD based LD Block
- Gabriel et al.
- D'を使用
- D'の信用度を次の2指標で評定
- Minor allele frequency<0.05のSNPを除外(D'値の信頼度が低いから)
- D'の95% 信頼区間(95%CI)を算出し、D'算出値、95%CIの上限値・下限値を用いる
- D'の95%CIの算出方法については近似法(解説文書はこちら)もあるが、GabrielらはD'の正確確率分布とその5パーセンタイル・95パーセンタイルを算出している
- "Confidence limits were determined by calculating the probability of the observed data for all possible values of D', from which an overall probability distribution was determined. The upper and lower bounds represent the 5% tails of the overall probability distribution.---Sience論文のSuppl.Methodsより"
- D'の95%CIの算出方法については近似法(解説文書はこちら)もあるが、GabrielらはD'の正確確率分布とその5パーセンタイル・95パーセンタイルを算出している
- 隣接マーカーにつき基準をクリアする範囲をブロックとして定義
- Wang et al.
- その他"Solid Spine of LD "
- LDインデックス D' を用い、ある閾値を与えてSNPペアのLDのありなしを決定する。このとき、あるマーカー列が存在して、その両端のマーカーがマーカー列のすべてのマーカーとLDありとなるような、SNP列のうち最も長くとれるものをブロックとする、という定義
- Haploview作成グループによる定義。出典なし(引用するとすればHaploviewのウェブサイト)
- LD blockのサンプル図(こちら)
- Gabriel et al.
- Pairwise-LD based recombination rate estimate
- Haplotype inference
- 関連検定
- 個々のSNPのアレル頻度によるテスト
- 推定ハプロタイプについてのテスト
- Permutation testによる統計的有意レベルの補正
- Tag SNP選択
- Tagger by de Bakker et al.
- r^2を用いる
- r^2にて閾値以上のLD関係にあるSNPはそのどちらかをとることにより、それらを含むセグメントの関連解析に十分な解析力を与えることを根拠とする
- Greedy algorithmにて、最も少ない数のtag SNPを選ぶことで、すべてのSNPがtag SNPのいずれか1つ以上と閾値以上のr^2の関係になるようにする。Greedy algorithmの説明は後述
- さらに、このようにして作られたtag SNPリストのtag SNPを除去する。除去にあたっては、そのtag SNPとLD関係にあるという理由でtag SNPに登録されなかったSNPが依然として少なくなったtag SNP リストのいずれか1個以上とLD関係にあるかどうかの判断を入れる
- あるSNPがあるSNPによって代表される条件として、両者の物理的距離が遠すぎないこと、両者のr^2のLODが低くなく、信頼のおける算出値であることなどの条件も入れる。また、低すぎるマイナーアレル頻度はGabriel et al.のLDブロッキングのときと同様、初めからtag SNPの選択過程から除去する
- Tagger by de Bakker et al.
※ 追記(LD指標のLOD値)
- LD指標値の信頼度としてのLOD値に関する説明は遺伝解析パッケージArlequin 2.000のマニュアルのSection 7.1.4.2 in page 86 を参照
※ 追記(HWE検定)
- Haploviewでは、HWE検定につき、従来法(カイ自乗検定(もしくはそれとほぼ同じ値の出る尤度比検定法))ではなく、Abecasisらの正確検定が採用されている。これは、カイ自乗検定よりもp値が大きめで出る(HWEが棄却されにくい)方法である。簡単には、Heterozygosityが期待値以上の場合にはP=1、期待値よりも小さい場合にP<1となる。ヘテロ個体数が観測数以下になる場合を数え上げてP値として返す方法である。
- オリジナルのペーパーはこちら。
- ソースはこちらで、Rのもある(こちら)ので、確認が簡便である。
- 利用上の注意
- 『Hardy-Weinberg calculation code courtesy of Goncalo Abecasis and Jan Wigginton at the University of Michigan Center for Statistical Genetics 』とHaploviewホームページに記載があるので、Haploviewで表示されるのは、Abecasisらの正確検定の結果と思われるが、AbecasisらのホームページのRソースでの解析結果とHaploviewでの解析結果に不一致がある。どちらが(も)正しくないかの確認はまだ取れていない。少なくともカイ自乗検定法よりもP値が大きくでるのは、Abecasis'Rもhaploviewも同様のようである。
*1:D’は、2つのSNPが作る4ハプロタイプの頻度のばらつき具合を表す数字で、 1がばらばら、0が均質、です(h1*h4-h2*h3)が0なら、ゼロ、これが大きい方 の極端なら1、です。 multiallelic D'も基本的には、0が「均質」1が「偏り」です。 今、1つ目のブロックに5つのハプロタイプがあり、2つ目のブロックに2つの ハプロタイプがあるとします。 もし、1つめのブロックに2つしかハプロタイプがなければ、1つめのブロック も2つめのブロックも2つずつのハプロタイプしかありませんから、 multiallelic D'は普通のD’と同じになります。 ですが、今、1つめのブロックには、2つのハプロタイプの代わりに5つのハプ ロタイプがありますから、ちょっと工夫が必要で 1つ目のブロックの5つのハプロタイプを、1個とそれ以外に分けてやります。そ うすると2つのブロックはそれぞれ2ハプロタイプのブロック同士に見なせるの で、普通のD’が定義できます。 このようにして、2つのブロックの間に仮に2ハプロタイプー2ハプロタイプの 組を作ってやって、それぞれのすべてについて、普通のD’を計算してやります。 それらを全部合せて、2ブロック間の関係を出したいわけです。 全部を足して、割ってやってもいいのですが、それだと、頻度が高いタイプの力 と頻度の低いタイプの力を平等に扱うことになって、不公平な感じもします。で すので、そこのところを、頻度が高いものは重く、低いものは軽くして、平均を とった(加重平均)ものがmultiallelic D'です。