SNP属性の記法のこと
1 ゲノム地図について
ゲノム配列を地図とする。
地図には表表示と裏表示がある(北半球を上にするやりかたと南半球を上にするやりかたのようなもの。ゲノム上の位置は、緯度を極から数えて0度から180度で表すようなもの)。
位置には、「海」「工場地帯」「田畑」「住宅地」の利用区別がされている(ATGCに相当)。
不思議なことに、表表示での「海」と裏表示での「住宅地」は区別ができなくて、表表示の「工場地帯」と裏表示の「田畑」も区別ができないが、両者がまったくことなることは、明確である。
逆に言うと、位置に与える区別は「表の海」とか「裏の田畑」と、表裏と「種類」の両方を与えないと正確な区別とはいえない。
ゲノム上には、「地点」がある。地点は、上記4利用区分がなされる。
個々人が保有する染色体ごとにこの地図は異なる。
今、「ただ1つの(理想的な)染色体」についての地図が完備されている。これをレファレンスとする。
2 多型について
その他の染色体の地図(利用区分情報)を表記するのに、レファレンスと異なることを基準にして、記録媒体を浪費せずに表現したい。
SNPのみを考慮する場合、ゲノムの長さは同じで、塩基の入れ替わりのみなので、次のようにする。
「SNP」と呼ばれる、地点を登録する。
多型地点なので、個々の染色体別に、「海」「工場・・・」の利用区別が2種類以上対応する。もちろん、「表(裏)の海」「表(裏)の工場・・・」と、表裏の区別も必要である。
そろそろ、「表裏」を毎回書くのが面倒に感じられてくる。それはどうしてか、というと、表裏は、真っ先に決めるべきことで、それを決めれば、表裏は以降の記載で明示する必要が不要であることを知っているからである。
「表」を採用することにする。
そうすると、SNPが、2アレルのときには、「(表の)田畑」「(表の)工場地帯」があることがわかる。
このとき、前者と後者に順序はない。
あえて、順序を定めるとしたら、「レファレンス」との一致を基準にする可能性がありますが、2アレルのどちらもがレファレンスと一致しない場合がゼロでないことを考慮すると、「定義不能」な定め方は無用の混乱の元であるので、SNPのアレル表記としていは採用するべきではないことが分かる。
あえて言えば、
SNPに与えるべき属性(情報)は、
表(裏)基準、その地図での位置、その地図でのレファレンス利用情報、{その地図での利用情報の片方、その地図での利用情報のもう片方}(順不同)
となる。
また、SNPが3アレルの場合には、
表(裏)基準、その地図での位置、その地図でのレファレンス利用情報、{その地図での利用情報の1つ、その地図での利用情報のもう1つ、その地図での利用情報の最後の1つ}(順不同)
SNPのアレルが4つの場合にも対応できる必要がある。
さらに言えば、SNPのアレルが1つの場合も情報も必要である(ある集団では多型性がないが、レファレンスと異なっている可能性がある位置の場合。異なっている場合ではなく、「異なっている可能性がある場合」であることに注意)。
こう考えてくると、SNPをID化して、それについてアレルを符号化し、その符号について実験を組み、実験結果をデータとして保管する作業というのは次のように言い換えることができる。
(1)ゲノム地図を決める
(2)アッセイ対象位置を地図上で決める
(3)その位置のその地図上でのアッセイを組み、そのアッセイ結果と地図上での利用情報との対応を決める
(4)地図上での利用情報を登録する
(5)登録していないところ(アッセイしていないところ)は、「多型性がない」と仮定して、レファレンスの「選んだ地図上」での利用情報と一致しているものと、『みなす』
これによって、30億地点の利用情報を全部書き出さずに、情報を保管できること
を担保する。