2005-12-01から1ヶ月間の記事一覧

UCSC Genome Browserへリンクしてゲノムデータを管理してみる

自己ゲノムデータをパブリックゲノムデータとリンクしてブラウズしたりするには、Generic Genome Browser GBrowse(こちら)などを利用することも可能だが、より簡便には、UCSC BioinformaticsグループのGenome Browser(サイトはこちら)のカスタムトラック機能…

第6限 タグSNPの選定

タグSNPとは、ある領域にに多数の多型が存在し、それらすべてを解析する代わりに、その領域の単一SNP関連解析・ハプロタイプ関連解析を効率よく行うために選ばれるSNPのセットのことである。弁別したいハプロタイプのセットとタグ化による関連解析精度の劣化…

第5限 連鎖不平衡ブロック内ハプロタイプの推定

EMアルゴリズムはすべてのハプロタイプフェージングの基礎であるので、原理を了解すること。そのためには、ジェノタイプデータを変えてそれに対するEMの出力を確認することが望ましい。EMについての記事はこちら。それを踏まえて、2SNP、3SNP、4SNPにつき…

第2限 個々のSNPジェノタイプデータの評価

個々のSNPについて、ケース・コントロール別にジェノタイプ観測人数がカウントされ、その結果、homo,hetero,counter-homo,unknownの4コール x 2サンプル群 の8数が得られる。 ケース・コントロール関連解析を行う前提 有効コール率・不明コール率の確認 ケ…

第1限 インストールと起動、ケース・コントロール入力ファイルの作成

Haploviewホームページ Haploviewダウンロードサイト Javaアプリケーションを動かすためにJREが入っていなければ、Java.comからダウンロード その後、HaploviewをOSに合わせて、ダウンロードし、必要に応じて、自己解等式ファイルを実行してインストールする…

Haploviewを用いた連鎖不平衡マッピング実習

全9限 このシリーズでの取り扱い範囲 個々のSNPジェノタイプデータの評価(HWE検定)(記事はこちら) SNP-SNPペア間の連鎖不平衡の評価(記事はこちら) 領域の連鎖不平衡の評価と連鎖不平衡ブロックの作成(記事はこちら) 連鎖不平衡ブロック内ハプロタイプの推…

第9限 ケース・コントロール関連検定・多点解析補正

今、2つのSNP(SNP_A,SNP_B)があるとする。次の4つの場合を考える (1)SNP_AとSNP_Bとは異なる染色体上にある(連鎖不平衡には(絶対に)ない、SNP_AのジェノタイプがわかってもSNP_Bのジェノタイプが何であるか、予想ができない) (2)SNP_AとSNP_Bとは、同じ遺…

第8限 ケース・コントロール関連検定・ブロックハプロタイプでの関連検定

ハプロタイプの関連検定は、haplo.statsなどもこのブログで紹介(記事はこちら)しているが、定番が(まだ)ない(ハプロタイプでの関連検定の手法のいくつかについての概説記事はこちら)。その主な理由は次の通り 領域ごとにハプロタイプ種類(アレル)数が異なり…

第7限 ケース・コントロール関連検定・単一SNPでの関連検定

ローカスの強さの指標とその検定-他のデータ解析・検定と同様に、「強さ」と「統計的有意差」からなる 「強さ」も「統計的有意差」も算出する方法はある。問題は、何を比較したいか(何を比較しないか)を了解してから実行することである 関連範囲の絞込みにお…

第3限 SNP-SNPペア間の連鎖不平衡の評価

2マーカー間の連鎖不平衡関係を評価するとは、2マーカーが作るハプロタイプ(SNP2個の場合は4ハプロタイプ)の頻度の分布をもとに、「連鎖不平衡の程度」を「量」で表す方法と、「連鎖不平衡」の存在を「質(検定)」で表す方法とに分かれる いずれも、ハプ…

第4限 領域の連鎖不平衡の評価と連鎖不平衡ブロックの作成

あるマーカーとあるマーカーの間の連鎖不平衡の強さは、そのマーカー間におきた組み換えの多寡を反映している。組み換えは、マーカー間の距離と、その2マーカーが共存した時間とに影響を受ける。近接するマーカーよりも互いに遠距離にあるマーカー間の方が…

Population subdivision と (FST), AMOVA

清書版 Fixation indexとの計算・検証のためのエクセルファイルはこちら(作成:京都大学医学研究科附属ゲノム医学センター、協力:理化学研究所遺伝子多型研究センター関節リウマチ関連遺伝子研究チーム、使用にあたっては、こちらに準ずる) Population subd…

ANOVA (Analysis Of VAriance) と AMOVA (Analysis of MOlecular VAriance)(Population subdivisionにおける)

ANOVA(ANalysis Of VAriance) (分散分析) 基本的な統計手法の一つであり、そのすべてをここで説明することは不適切であるが、簡潔に述べると次の通り 複数(3以上)の母集団を比較し、その平均値が等しいという仮定を検定するのがANOVA(analysis of variance…

Wright’s F-statistics,hierarchic subdivisions(Population subdivisionにおける)

の3つからなる統計量である。 亜集団間の関係を表しているのは、そのうちのになる。以下ではを中心に述べる。 HWE検定(関連記事はこちら)、Fixation index(関連記事はこちら)では、ある集団の内部構造を検討していた。そこに存在する全個体のアレルの分布に…

Fixation index F(Population subdivisionにおける)

次の仮説に基づく、Fixationの指標(subdivisionの指標とも言える) ランダムメイティング集団ではHWEが成り立っている。Subdivisionが起きると、Subdivided亜集団内ではHWEが成り立つが、遺伝的浮動のため、亜集団のアレル頻度に差が生じる。極端な場合には、…

Hardy-Weinberg平衡検定(Population subdivisionにおける)

本来はPopulation subdivisionの検定ではないが、SNP解析出身者にはもっとも理解が容易な指標なので、はじめに説明する HWE検定でHWEが棄却された場合には、Heterozygosityの過少の場合には、subdivisionの存在がその理由である可能性がある(が、そうと断定…

Population subdivision と (FST), AMOVA

この記事は自分用として非公開。全体の構成に不備があり、自分以外には不適切な内容が多いものの、備忘録としての役割が大きいので、閲覧不能状態で残す。 ここにあった記事の修正・清書版は→こちらに移動しました。

HomozygosityとHeterozygosity

クローン集団でなければ、集団中に多様性が存在する。Diploid個体の集団を取り扱う場合、多様性の指標のひとつとして、集団中の個体のうちホモの個体の占める割合(Homozygosity)とヘテロの個体の占める割合(Heterozygosity)とをよく用いる。 Homozygosity + …

遺伝的浮動(Drift)

集団中にの多様性の素である変異はたえず起きているが、そのうちの大多数は集団中に残ることなく消滅する。理由は、変異配列染色体が次世代集団にかならずしも引き継がれないためである。簡単のために、100染色体があって、次世代も人口増加はなく100染色体…

Infinite-sites model

Infinite-alleles modelでは、たとえば、次のような2つの変異をモデルに合致した変異とみなす。ATGC->AAGC, ATGC->AGGC。2つの変異は、それぞれ新規アレルを生んでいる。 Infinite-sites modelでは、塩基配列は非常に長いので、あるDNA部位には、1度しか…

Infinite-alleles model

変異が起きて、遺伝子の多様性が増すことを考える。細かく考えると、あるとき、ある染色体に変異が起きてアレルが生まれ、別のときに別の染色体に変異が起きてアレルが生まれたとしたときに、この2つの新たに生まれたアレルは、同一かもしれない。しかしな…

連鎖不平衡のLODと尤度比検定

※ この記事の本体部分(Arlequinを用いた遺伝解析実習はこちら) ペアワイズLDの算出はLDブロックの基本である。論文等でもっともよく用いられるLD指標はr^2,D'である。また、Haploviewにては、それらに加えて、LODが用いられている。D',r^2については、比較的…

樹の描図

フリーアプリケーションTreeViewをダウンロードしよう(URL) 樹の構造をテキスト表現する方法もいくつかあるが、 (B1:0, (((B3:0, B5:2.00000):0, B2:1.00000):0, B4:0.00000):1.00000); は、Newick書式(URL)と呼ばれ、樹を描くアプリケーションの複数で用い…

第7限 Genetic structure

集団は、均一集団の寄せ集めになっている(ことが多い)。そのよせ集まり具合の評価。最近、論文でよく使われている"Structure"はこちら。Structureでは、観測データから個人をグループ分けして、グループ間の遠近関係を出す。こちらの手法は、観測データとと…

第5限 連鎖不平衡判定と連鎖不平衡係数の計算

Arlequinの連鎖不平衡解析は遅いので原則、用いない。しかしながら、出力が丁寧なので、原理の学習という意味で連鎖不平衡のみなぞる。 EMアルゴリズムにてハプロタイプ頻度を推定し、それに基づいて連鎖不平衡の検定、および連鎖不平衡係数を計算している …

第3限 配列の違いの評価(Diversity indices)

サンプルデータ 2群(GroupA,GroupB)について、全6SNPが作るハプロタイプが観測された。GroupAでは102人=204本、GroupBでは69人=138本。GroupAには7種類のハプロタイプが認められ、A1...A7と名前をつけた。それぞれの観測本数は、98,52,...3,1本ずつである…

第6限 Neutralityテスト

分子進化の中立仮説にもとづいたモデルからの予想値と実測データの乖離の程度を評価するのが、Neutralityテストである。テストは、実測データのあるものの分布が、モデルにからの予想の分布との差について検定することにより行われる。アレルに関する分布を…

第2限 入力ファイルと全解析に共通する設定

Arlequinの入力ファイルフォーマット・出力フォーマットは大量データのコマンドラインを意識したつくりになっていないので、そのつもりで。 SNP解析を前提にする。それ以外の場合は、SNP解析での経験をもとに、マニュアルを参照のこと。データを構成する基幹…

第1限 インストールと起動、設定

以下にはWindows XPにおけるインストール。Mac,Linuxへのインストールについては、オフィシャルページの解説を適宜参考にすること ホームページ ダウンロード bin + jre版"Arlequin20jre_zip.exe"をダウンロードし、ダブルクリック。解凍されて現れる2つの.…