第2限 入力ファイルと全解析に共通する設定



Arlequinの入力ファイルフォーマット・出力フォーマットは大量データのコマンドラインを意識したつくりになっていないので、そのつもりで。

SNP解析を前提にする。それ以外の場合は、SNP解析での経験をもとに、マニュアルを参照のこと。データを構成する基幹情報は以下のとおり(例示用データにおける数を挙げてある)

  • 集団数 Nsample = 2 (SampleA,SampleB)
  • SNP数 Nsnp = 5
  • 各サンプリング集団の検体数 SampleSize = (SampleA 6人、SampleB 4人)とする
  • 検体がDiploidかHaploidか
    • Diploidの場合には、Phase既知か未知か
  • 検体数表示か頻度表示か
  • そのほかに、SNPのアレルの表示の仕方の指定をする

<例1>Phase未知のSNPデータが得られており、SNPのアレルを"0""1"で表現している場合

ジェノタイプは"00""01""11"の3通りで、不明コールを"99"で表すものとする。

今、SampleAの第1番検体の検体IDがA_1,その5SNPのジェノタイプが"00","01","00","11","99"だったとする。その個人のジェノタイプ情報は2行に渡って記載される。Phaseは不明なので、便宜的に1行目と2行目に個々のSNPのつ2アレルが割り振られる

集団遺伝学的アプローチであると、集団中に認められる同一ジェノタイプ保有個体・同一ハプロタイプ本数は集計して提示することがデフォルトとして適当であるが、連鎖不平衡マッピングの立場からは、個々の情報をそのまま扱うことの方が適当なことも多い。そのような場合には、個人のジェノタイプをデータとして示しつつ、そのようなデータの検体を1個あるとした上で、同一パターンのデータを複数回記載するのも手である。以下はそのようにした場合である。左端にデータ名、ついでその観測数、そしてその後にSNPのジェノタイプが2行に渡って記載されている


A_1 1 00019
01019
A_2 1 00019
01019
A_3 1 10010
11010
A_4 1 00011
01011
A_5 1 00010
01011
A_6 1 00000
00010

これを10人分にすると


A_1 1 00019
01019
A_2 1 00019
01019
A_3 1 10010
11010
A_4 1 00011
01011
A_5 1 00010
01011
A_6 1 00000
00010
B_1 1 00011
01011
B_2 1 09000
09010
B_3 1 00011
01011
B_4 1 10001
10111

ただし、SampleAとSampleBとの区別を入れないといけないので、Sample単位で名称を与え、その人数情報を付加した上で、帰属サンプルの情報を{}でくくる。また、検体の遺伝型データのほかにその書式を指定する欄も付加する必要があるので、それと区別するために、これらの冒頭に"[Data] Samples?"を追加する。また、SampleAとSampleBとをまとめて解析するために、グループ化するために、末尾にStructureと題して始まる記述をしSampleA SampleBを名称"Test"のGroupに属することを宣言する。以下のような記述となる


[Data]
[[Samples]]
SampleName="SampleA"
SampleSize=6
SampleData={
A_1 1 00019
01019
A_2 1 00019
01019
A_3 1 10010
11010
A_4 1 00011
01011
A_5 1 00010
01011
A_6 1 00000
00010
}
SampleName="SampleB"
SampleSize=4
SampleData={
B_1 1 00011
01011
B_2 1 09000
09010
B_3 1 00011
01011
B_4 1 10001
10111
}
[[Structure]]

StructureName = "Test"
NbGroups = 1
Group = {
"SampleA"
"SampleB"
}

これで全データが記載された。あとは、その書式をアプリケーションに提示する部分の記述である。書式についての情報は"[Profile]"で始まる部分に書き、タイトル名(Title)、サンプル数(NbSamples)、Diploidデータかhaploidデータか(GenotypicData)、Diploidの場合には、Phase未知か既知か(GameticPhase)、不明アレルをどう表しているか(MissingData)、同一データパターンの数を観測数で表すか頻度で表すか(Frequency)、ローカス間の区切りは何か(LocusSeparator)、SNPアレルの表示の仕方(DataType)を指定する。

1サンプルがDiploidデータなので、GenotypicData=1(ハプロイドデータの場合には0)、ハプロタイプ推定をしていないので、GameticPhase=0(個人の2本のハプロタイプデータになっていれば1)、SNPとSNPとの間になにも区切り文字が入っていないので、LocusSeparator=NONE(タブ区切りならTAB,半角スペースならWHITESPACE)、アレルは0,1なので、下の例ではDataType=RFLPとしたが、STANDARDとしても動く。STANDARDはもっと一般的なアレル名(HLAのDNAベース表記(DR*0401など)の文字列も受け付けるオプションである。もちろんこの場合には、ローカス間に区切り文字を入れる必要がある。塩基(ATGCにするならば、DNA、マイクロサテライトの繰り返し数にする場合には、MICROSAT)。

上記の記載パターンに即した[Profile]の書き方は次のとおり


[Profile]
Title="Sample1"
NbSamples=2
GenotypicData=1
GameticPhase=0
MissingData="9"
DataType=RFLP
LocusSeparator=NONE


[Data]
[[Samples]]
SampleName="GroupA"
SampleSize=6
SampleData={
A_1 1 00019
01019
A_2 1 00019
01019
A_3 1 10010
11010
A_4 1 00011
01011
A_5 1 00010
01011
A_6 1 00000
00010
}
SampleName="GroupB"
SampleSize=4
SampleData={
B_1 1 00011
01011
B_2 1 09000
09010
B_3 1 00011
01011
B_4 1 10001
10111
}
[[Structure]]

StructureName = "Test"
NbGroups = 1
Group = {
"GroupA"
"GroupB"
}

上記のファイルを"hoge.arq"として保存する。第1 インストールと起動、設定に記載した方法で実行(デフォルト設定)するとブラウザが立ち上がり、以下の出力がなされる。実行設定の出力である


////////////////////////////////////////////////////////////////////
RUN NUMBER 1 (15/12/05 at 16:09:33)
////////////////////////////////////////////////////////////////////

Project information: