一般化連鎖不平衡係数(覚え書き追加)

以前、こんな記事を書いた。
A novel method to express SNP-based genetic heterogeneity,Ψ, and its use to measure linkage disequilibrium for multiple SNPs, Dg, and to estimate absolute maximum of haplotype frequency

用あって、これの、日本語の抄録を入手した(書いた)。


一塩基多型(SNP)は、ヒト集団の遺伝的多様性を理解するためにも、また、有用形質の遺伝因子を連鎖不平衡マッピングを実施するためにも、重要な遺伝子多型マーカーである。
SNPは2アレル多型であるため、Ns個のSNPが形作るハプロタイプ種類数は、最大2^Nsある。集団における、複数のSNPが構成する遺伝的多様性に関する情報は、この2^Ns種類のハプロタイプの頻度分布によってすべて体現されるのであるが、2^Nsのハプロタイプに対応する2^Ns個の値ベクトルそのものは、遺伝的多様性を理解する上で、あまり有用ではない。われわれは、Ns個の要素からなる集合のべき集合(SNP組み合わせ亜集合の集合)の数が2^Ns個であることに着目し、ハプロタイプ頻度の値ベクトルから、SNP組み合わせ亜集合に対応する2^Ns個の値への1対1対応変換規則を見出し、それをΨと名づけた。その上で、SNP組み合わせ亜集合の要素であるSNPを、さらに小さな、相互に共通要素を持たないSNP組み合わせ亜集合へ分ける、分割に対して、対応するΨの要素から計算される値Dgを定義した。このDgは、-1 から 1の間の値をとり、分割に関して、独立であるときに0をとるという性質を持つことから、複数のSNPの任意のSNP分割の独立性に関する指標であることがわかる。SNP分割の独立性は連鎖平衡と言い換えることができるから、このように定義したDgは任意の数のSNPを、任意の数の亜集合へ分割する場合に値を与えることから、複数SNPに関する連鎖不平衡指標としての特徴を完備している。
実際、連鎖不平衡係数としての地位を確立しているr^2,D'は、SNPペアにのみ定義された連鎖不平衡係数であるが、SNPペアに対するDgはそれらと一定の規則の下で相関し、SNPペアに対する連鎖不平衡係数としても成立していることが示された。
さらに、われわれは、フェーズ不明のディプロタイプデータからハプロタイプ頻度推定することと、Ψの要素の値を推定することは同義であることから、Ψの推定方法を提案した。Ψの推定にあたっては、最尤推定値を推定する手法を採用した。Ψの要素の値の最尤推定にあたっては、それが、階層構造をなしていることから、推定対象要素を常に1個として実施することができる点がEMアルゴリズムとは異なる。この特徴を活かし、EMアルゴリズムで問題となる、局所解への収束を完全に回避することができる手法であることも示された。