第1限 インストールと起動、ケース・コントロール入力ファイルの作成



  • Haploviewホームページ
  • Haploviewダウンロードサイト
    • Javaアプリケーションを動かすためにJREが入っていなければ、Java.comからダウンロード
    • その後、HaploviewをOSに合わせて、ダウンロードし、必要に応じて、自己解等式ファイルを実行してインストールする
  • サンプルデータの実行
    • サンプル入力ファイル("sample.ped","sample.info")の読み込み
      • Haploview.jarをダブルクリックすると、メインウィンドウと入力データタイプの選択ウィンドウが立ち上がる
        • Load genotypes (linkage format)ボタン
          • 個人のdiplotypeジェノタイプデータを入力する場合
          • 個人ジェノタイプを用いた遺伝解析は家系を用いた連鎖解析から始まっており、この入力データフォーマットは、既存の連鎖解析プログラム(の一部)の入力データフォーマットを踏襲している。個人−個人の家系上の関係を指定でき、親子関係上不整合のあるジェノタイプデータを検出したり、家系関係を考慮したハプロタイプフェージングも実装されている。本実習では、原則として血縁関係にないサンプルのデータのみを用いることとする
        • Load phased haplotypesボタン
          • 実験的にハプロタイプ化しているか、もしくは、ジェノタイプデータからなんらかの方法で推定したハプロタイプデータを入力する場合
        • Load HapMap dataボタン
          • HapMapデータ(個人のジェノタイプデータ、一部データは親子トリオ)を入力する場合
      • "sample.ped"は個人ジェノタイプであるので、Load genotypes (linkage format)を選ぶ
      • "sample.ped"ファイルと同ディレクトリ(フォルダ)にある"sample.info"ファイルが、デフォルトでSNP情報(SNPの名前と位置)ファイルとして選ばれるが、必要に応じて別の場所にあるファイルを指定してもよい
      • オプションは3つ
        • SNP-SNPペアにて連鎖不平衡係数を計算するが、一定距離より遠いSNP間では(計算しても無駄なので)計算しないことを指定するオプション(デフォルトが500kb)
        • 不明コール率が高い個人を解析に含めないオプション(デフォルトが50%)
        • ケース・コントロール関連解析を行うオプション(さらにその下部オプションとして、Family trioデータか(TDT関連解析か)、Case/Control dataか(ケース・コントロール関連解析か)を選択する
      • "sample.ped"はFamily trioデータなので、500kb、50%(デフォルト)を選び、Do association testを選択し、Family tio dataを選んで、OKボタンを実行すると、一通りの解析がなされ、ウィンドウが変わる。
  • 入力ファイルのフォーマットと作成(エクセルなどスプレッドシート式のアプリケーションからテキスト形式で指定のフォーマットに作成する)
    • "xxxx.ped"ファイル
      • 家系データを扱うために必要な、サンプル特定情報とサンプル-サンプル関係特定情報を記載するための6列と多型のジェノタイプのための列が多型箇所数あり、1個人1行になっている
      • 6+多型数の列はタブ区切り
      • 家系データを扱うために必要な項目
        • 家系ID(非家系データの場合は、各サンプルが独立した家系であるとすればよい)
        • 家系内サンプルID(非家系データの場合、各家系内にサンプルは1つであるとして全サンプルで同一値を与えてもよし、家系IDと同一のIDを記載してもよい)
        • 父親の家系内サンプルID(非家系データの場合、0(父親不明)を記すこと)
        • 母親の家系内サンプルID(非家系データの場合、0(母親不明)を記すこと)
        • 性別(連鎖解析が性染色体上遺伝子の解析をすることを考えれば、連鎖解析用フォーマットとして必須である)(1=MALE, 2=FEMALE)
        • 疾患罹患状態(0=UNKNOWN, 1=UNAFFECTED, 2=AFFECTED)
          • この定義で明らかなように、量的形質には対応していない
      • 多型のジェノタイプ
        • アレルを1=A, 2=C, 3=G, 4=T, 0=不明で表し、2アレルの間に半角スペースを入れる
    • "xxx.info"ファイル
      • 多型IDとその物理的位置(塩基番号)の2カラム
      • "xxx.ped"ファイルの多型情報の列の並びと、"xxx.info"ファイルの行の並びとが対応する
    • ケース・コントロール入力ファイル(非家系)のサンプル
    • "case-cont.ped"(ケース4人、コントロール3人)

Case1 Case1 0 0 1 2 1 1 1 2
Case2 Case2 0 0 2 2 1 2 2 2
Case3 Case3 0 0 2 2 1 1 1 1
Case4 Case4 0 0 1 2 1 2 2 2
Control1 Control1 0 0 2 1 1 1 1 2
Control2 Control2 0 0 1 1 1 1 2 2
Control3 Control3 0 0 2 1 2 2 1 1

    • "case-cont.info"(2SNP)

SNP1 345162
SNP2 353215