つないでみる

  • 今、ある遺伝子があって、N個の一塩基多型があるとする
  • すべての一塩基多型は2アレル型であるとする
  • 個々の一塩基多型のジェノタイプ(ディプロタイプ)は3タイプある
  • 個々の一塩基多型の3つのジェノタイプは、2アレルのうちの1アレルに関して保有本数を数えることで、0,1,2の数字で与えることができる
  • 個々の一塩基多型ユークリッド空間として1次元分を与えることにすれば
  • 今、すべての個人は、N次元空間上ての点として、(x_1,x_2,...,x_n)と表せる。ただしx_i=\{0,1,2\}である
  • このN次元格子座標における、『個人の位置』について考える
  • スカラー統計量を取ってみよう
    • 今、\sum_{i=1}^N x_iという値を考えることができる
      • これは、N次元座標を(a,0,0,...,0),(0,a,0,...,0),(0,0,a,...,0),...,(0,0,...,0,a)というN個の点を結んだ面にある点は、「同じ」と考えて、その面が第1軸と交叉する点(a,0,0,...,0)に読み替えることである
      • これは、各点をx_1=x_2=...=x_Nという直線への垂線の足に読み替えることでもある
      • いずれにしろ、空間の点を「1次元の線に移す」ことによって、比較可能にする作業である
    • スカラー統計量をN次元空間に置いた「線」とそこへの射影の仕方として考えれば、いろいろなスカラー統計量が取れる。「線」は必ずしも直線である必要はないだろう。ただし、空間上のすべての点に対応する「線上」の点ただ一つとれることが求められることである
    • 個人が何かしらの値(フェノタイプとか)を持っているとき、このスカラー統計量とフェノタイプとの間に関連があるかないかを数値にできるかどうか、数値にすることで、「意味」が引き出せるかどうかによって、この統計量をフェノタイプとの関連調査に使うことができるかどうかが決まる
    • 点を結んでやるとグラフになる
    • グラフから何かしら値を引き出すことも可能だろうか
      • 全サンプルを点に見立てて完全グラフを描いたとき、その完全グラフの「広がり具合」をスカラーで表すことが可能だろう
      • 最大径とか、最小径とか
      • 最小全域木の「大きさ」とか
  • スカラーではない量もとれるだろう
    • 点の分布を記述統計してみよう
      • 重心が取れるだろう(ベクトルだ)
      • 重心からのずれも数値にできそうだし
      • 分布しているので、主成分もとれそうだ
  • 今、フェノタイプがカテゴリカルならば、フェノタイプのカテゴリごとに、上述の統計量を調べて、カテゴリ間で違いがあるかないかを調べることは可能だろう
  • フェノタイプが連続量だったり、多次元ベクトル量だったりした場合には、ジェノタイプの次元にフェノタイプの次元を加えた多次元空間を考えて、その空間の点の分布の仕方について考えることもできるだろう。この場合には、「カテゴリごと」の統計量の違いを見るのではなくて、フェノタイプ情報こみの分布について算出した統計量が、フェノタイプ情報をパーミュテーションした上で算出した統計量の分布とどのような関係になるのかを調べることになるだろう