SNPの2アレルを±に対応させる



  • 集合においてA,¥bar{A}との関係を包除原理では、プラスとマイナスで扱っていた
  • SNPのアレル頻度を方やP,方や1-Pとする代わりに、P=¥frac{1}{2}(1+¥psi),1-P=¥frac{1}{2}(1-¥psi)としてみる。
  • k個のSNPがあり、それらが独立であるとき、k個のSNPが作るハプロタイプ頻度はP(h_*)=¥prod_{i=1}^{k} P_iで表される(ただし、P_iハプロタイプを構成する個々のSNPのアレルに応じて、P,1-Pを適当に表しているものとする)。
  • 今、P=¥frac{1}{2}(1+¥psi),1-P=¥frac{1}{2}(1-¥psi)の表現を使ってこのP(h_*)を表すと
    • P(h_*)=¥prod_{i=1}^{k}(¥frac{1}{2}(1+¥sigma_{i,*} ¥psi_i)),¥sigma_{i,*}=¥pm 1
      • 式を展開して
      • P(h_*)=¥frac{1}{2^k}(1+¥sum_{i=1}^{k}¥sigma_{i,*} ¥psi_i+¥sum_{i<j} ¥sigma_{i,*} ¥sigma_{j,*} ¥psi_i ¥psi_j+...+¥prod_{i=1}^{k}¥sigma_{i,*}¥psi_i)
      • ここで用いている¥sigmaの正負は、包除原理での正負の交代関係に一致する。
    • 展開式は、要素数kの集合のべき集合に等しい項を持つ。特に、第1項(定数項)は、べき集合の要素の1つ、空集合に相当する。
    • k個のSNPが独立でないとき、¥psi_{n_1,n_2,...,n_m}を適当に定めることによって、
      • P(h_*)=¥frac{1}{2^k}(1+¥sum_{i=1}^{k}¥sigma_{i,*} ¥psi_i+¥sum_{i<j} ¥sigma_{i,*} ¥sigma_{j,*} ¥psi_{i,j}+...+¥prod_{i=1}^{k}(¥sigma_{i,*})¥psi_{1,2,...,k})
        • 式を変形することにより
          • P(h_*)=¥prod_{i=1}^{k}(¥frac{1}{2}(1+¥sigma_{i,*} ¥psi_i))+¥frac{1}{2^k}(¥sum_{i<j}¥sigma_{i,*} ¥sigma_{j,*} (¥psi_{i,j}-¥psi_i ¥psi_j)+¥sum_{i<j<k} ((¥sigma_{i,*} ¥sigma_{j,*} ¥sigma_{k,*})(¥psi_{i,j,k}-¥psi_i ¥psi_j ¥psi_k)) + ... + ¥prod_{i=1}^{k} (¥sigma_{i,*}) (¥psi_{1,2,...,k}-¥prod_{i=1}^{k} (¥psi_i)))
              • この式の第1項はk個のSNPが独立なときの値、第2項はそこからのずれを表した項となる。