6' 遺伝子多型分割表データの関連検定の見方 SNPケースコントロール関連検定に見る、いろいろな検定

7 CNPケースコントロール関連検定手法をSNPケースコントロール関連検定手法から拡張する

  • SNPは3ジェノタイプ、CNPはNg=3以上のジェノタイプがある
  • SNPの検定手法ごとに対応する手法を右に示す
    • ジェノタイプを順序なしカテゴリとする
      • (1)2x3分割表のカイ自乗検定・・・対応検定2xNg分割表カイ自乗検定
      • (2)その正確確率検定・・・その正確確率検定(計算量が多く非現実的)
    • 特定モデル
      • Additive model相当・・・コピー数和について1ずつ重みを加えるモデル
        • 傾向性検定
          • (3)Cockran-Armitage・・・なし
          • (4)Trend カイ自乗検定・・・SNPに同じ
        • (5)アリルの2x2表カイ自乗検定・・・アリルの2xNa表カイ自乗検定
        • (6)アリルの2x2表正確確率検定・・・その正確確率検定(計算量が多く非現実的)
        • (7)Mann-Whitney・・・SNPに同じ
        • (8)線形回帰・・・SNPに同じ
      • 優性モデル相当・・・コピー数の多寡の閾値に応じて、多様になる
        • コピー数和が閾値以下とそれより大の2群に分ける
        • (9)2x2表作り直しカイ自乗検定・・・SNPに同じ
        • (10)2x2表作り直し正確確率検定・・・可能(ただし、正確確率の計算方法は不適切)
        • (11){1,1,0}重み付けの傾向性カイ自乗検定・・・{1,1,...,1,0,0,...0}のように重み付ける。SNPに同じ
      • 劣性モデル相当・・・優性モデルで述べた拡張法に含まれる
        • (12)2x2表作り直しカイ自乗検定
        • (13)2x2表作り直し正確確率検定
        • (14){1,0,0}重み付けの傾向性カイ自乗検定
    • サンプル2x6分割表
49	42	9	12	5	4	
45	41	14	11	3	6	
    • 結果
---ジェノタイプを順序なしカテゴリとする
(1)		2x6 Table ChiSqTestP(df=5)
(2)	-----------------
---Additive model相当
(3)	-----------------	Cockran-Armitage Trend P
(4)	0.6603449799708931	TrendChiSqP
(5)	-----------------	2x2 Table of allele ChiSqTestP(df=1)
(6)	-----------------	2x2 Table of allele ExactP
(7)	0.5475621670659176	Mann-Whiteney
(8)	0.6619374063504799	Linear Regression
---優性・劣性モデル相当
(9)	0.6335392359321141	1	More than 0コピー vs. Others	
	0.5338275983821452	1	More than 1コピー vs. Others	
	0.8868654597888093	1	More than 2コピー vs. Others	
	0.985398587937991	1	More than 3コピー vs. Others	
	0.5096336907791201	1	More than 4コピー vs. Others	

6 遺伝子多型分割表データの関連検定の見方 SNPケースコントロール関連検定に見る、いろいろな検定

  • SNPは3ジェノタイプ
    • この3ジェノタイプは、それぞれがどんなリスクを持っているか、知れたものではない、という意味では、相互に順序できない3カテゴリともみなせる
    • この3ジェノタイプは、2アリルのうちの片方に着目すると、0本、1本、2本という明らかな順序があるので、順序つきカテゴリとみなすことも、自然である
  • ケース・コントロールは2フェノタイプ
  • 2カテゴリは、それに順序があるとみなしても、こちらかあちらか、という判断しかできないので、ある軸について順序があるものとみなせるので、必ず、順序有りカテゴリである
  • 『どんな関連』かによる『いろいろ』
    • 3ジェノタイプカテゴリのどれにどれくらいリスクがあったとしても、それを信じよう、というような関連の見方
      • 特定の関連の見方に対する『いろいろ』な関連検定手法には、次のような分け方がある
        • 漸近近似検定(算術的に計算できる統計量を計算し、その統計量を既知の確率密度分布に照らしてp値とする方法)と、それに対応する正確確率検定のペアが、ほぼ必ず存在し、それが『いろいろ』な手法として数を増やす
          • 漸近近似検定は、計算が簡単だが、サンプル数がすくなくなると、誤差が無視できなくなる
          • 正確確率検定は、計算は面倒だが、サンプル数がすくなくても、正確である
        • 同じ見方に、複数の漸近近似統計量が知られている場合も、手法の数が増える。Additive modelにおける、Trend カイ自乗統計量と、Cockran-Armitage統計量とがそれである。この2つはどちらも自由度1のカイ自乗分布で評価されるもので、互いに似通った値となるが、わずかに算出式が異なる。この違いは、たいてい無視しえるレベルである。これを無視したくない向きには、正確確率検定を持ちいればよい。この2つの正確確率検定は、まったく同一のそれとなっているからである。
      • ジェノタイプモデル
    • 片方のアリルの所有本数に比例してリスクが発生するという関連の見方
      • Additive modele
    • 優性遺伝形式でリスクが発生するだろうという関連の見方
      • 優性モデル
    • 劣性遺伝形式でリスクが発生するだろうという関連の見方
      • 劣性モデル
  • 1つの見方に存在する複数の検定手法
    • ジェノタイプモデルの場合
      • 2x3分割表カイ自乗検定(自由度2)
      • 2x3分割表正確確率検定
    • Additive model
      • 3ジェノタイプの重み付けを{0,1,2}とする傾向性カイ自乗検定(自由度1)
      • Cockran-Armitage傾向性検定(自由度1)
      • 染色体本数として2x2分割表を作成しなおして、カイ自乗検定(自由度1)・・・本当は不適切な手法
      • 作成しなおした2x2分割表について実施する正確確率検定・・・作り直した分割表に基づく正確確率の計算は不正確なので、不適切な手法
    • 優性モデル
      • 3ジェノタイプを優性モデルに照らして2群に分け、2x3分割表を2x2分割表に作成しなおした上で行うカイ自乗検定(自由度1)・・・分割表の作り直しなので、不適当に感じられるが、適切な手法
      • 3ジェノタイプの重み付けを{1,1,0}として実施する傾向性カイ自乗検定(自由度1)。2x2ジェノタイプ分割表を作り直して実施するカイ自乗検定とまったく同じ
      • 作りなおした2x2分割表について実施する正確確率検定・・・作り直した分割表に基づく正確確率の計算は不正確なので、不適切な手法
    • 劣性モデル
      • 3ジェノタイプを劣性モデルに照らして2群に分け、2x3分割表を2x2分割表に作成しなおした上で行うカイ自乗検定(自由度1)・・・分割表の作り直しなので、不適当に感じられるが、適切な手法
      • 3ジェノタイプの重み付けを{1,0,0}として実施する傾向性カイ自乗検定(自由度1)。2x2ジェノタイプ分割表を作り直して実施するカイ自乗検定とまったく同じ
      • 作りなおした2x2分割表について実施する正確確率検定・・・作り直した分割表に基づく正確確率の計算は不正確なので、不適切な手法
    • その他の手法
      • SNPの解析では、上記の手法が主に見られるが、CNPの解析ではその他の手法がメジャーなペイパーにも登場する。SNPは2アリル3ジェノタイプ型のCNPともみなせるので、参考のために、それらの手法についてもここで言及する。
        • CNPでは、ジェノタイプのコピー数和で、サンプルに順位をつけ、順位和検定を行うことがある。Mann-Whitney検定である。これは、ケースとコントロールの2群に差がないならば、ケースの順位とコントロールの順位はランダムであるはずである、という考え方に基づく。同順位が非常に多い点が不適切度を上げることは確かだが、考え方として間違ってはいない。
        • CNPでは、コピー数和の多寡に基づいて、適当に2群に分けて、2x2分割表検定をすることもある。これは、SNPの場合には、優性・劣性モデルで2x2分割表検定をすることに相当する。
      • また、フェノタイプが量的な場合に用いる手法も、ケース・コントロールの形質を0,1という量であるとみなすことで適用可能であるので、それらの手法についてもここで言及する。
        • 線形回帰検定。フェノタイプがジェノタイプ(特定アリルの保有本数)の線形関数であるいうモデルをあてはめて、帰無仮説に照らしてp値化するもの
        • その他、ロジスティック回帰もあるが、ここでは省略(計算が、一段階面倒くさくなるため)。
  • ツールの結果を見る
    • 見方でもう一度分類しなおす
      • ジェノタイプを順序なしカテゴリとする
        • (1)2x3分割表のカイ自乗検定
        • (2)その正確確率検定
      • 特定モデル
        • Additive model相当
          • 傾向性検定
            • (3)Cockran-Armitage
            • (4)Trend カイ自乗検定
          • (5)アリルの2x2表カイ自乗検定
          • (6)アリルの2x2表正確確率検定
          • (7)Mann-Whitney
          • (8)線形回帰
        • 優性モデル相当
          • (9)2x2表作り直しカイ自乗検定
          • (10)2x2表作り直し正確確率検定
          • (11){1,1,0}重み付けの傾向性カイ自乗検定
        • 劣性モデル相当
          • (12)2x2表作り直しカイ自乗検定
          • (13)2x2表作り直し正確確率検定
          • (14){1,0,0}重み付けの傾向性カイ自乗検定
      • 見方が同じ手法のP値は似通っている、また、まったくの同一手法でありながら、異なる呼び名のものは、同一の値であることも見て取れる

0.5569044977710992 2x3 Table ExactP

    • サンプル2x3分割表
49	42	9	
45	41	14	
    • 結果
---ジェノタイプを順序なしカテゴリとする
(1)	0.5301428713204794	2x3 Table ChiSqTestP(df=2)
(2)	0.5569044977710992	2x3 Table ExactP
---Additive model相当
(3)	0.34875306900807446	Cockran-Armitage Trend P
(4)	0.34754490657479753	TrendChiSqP
(5)	0.33569583486055254	2x2 Table of allele ChiSqTestP(df=1)
(6)	0.3921877553862013	2x2 Table of allele ExactP
(7)	0.404569198365313	Mann-Whiteney
(8)	0.3500426506596672	Linear Regression
---優性モデル相当
(9)	0.26775748628257956	Dominant model ChiSqP
(10)	0.3756881440915198	2x2 Table of Dominant model ExactP
(11)	0.26775748628257967	{1,1,0}TrendP
---劣性モデル相当
(12)	0.5709136609062897	Reccesive model ChiSqP
(13)	0.6709271228577122	2x2 Table of Reccesive model ExactP
(14)	0.5709136609062893	{1,0,0}TrendP

###書きかけ

  • 分割表の見方〜ジェノタイプ・フェノタイプの重み付け
    • 2カテゴリのとき、それは、必ず順序が想定される=ケース・コントロール関連検定は、どの手法を用いるにせよ、必ず、ケース・コントロールには0か1かという順序が取り込まれて解析される
    • 常染色体多型のジェノタイプは、SNPを含むすべての多型でジェノタイプ数が必ず3以上なので、順序を想定するか否かの判断を必ずする必要がある
    • カテゴリの順序の想定の有無による、解析の分類
ジェノタイプ-> 順序なしカテゴリ 順序ありカテゴリ
フェノタイプ
ケース・コントロール Heterogeneity検定 傾向性の検定,Mann-Whitney
3カテゴリ以上、順序なし Heterogeneity検定 Kruskal-Wallis
3カテゴリ以上、順序あり Kruskal-Wallis Jockheere-Terpstra

7 傾向性の検定

  • 傾向性の検定とは、カテゴリに順序をつけて、それに重み付けをし、その付与した重み付けの具合と一致しているかどうかと、すべてのカテゴリが平等であるかどうかと比較して、検定するものである
  • フェノタイプ数が2の場合
    • SNPケース・コントロール関連解析における傾向性の検定で理解する
      • 分割表は2x3である
      • ジェノタイプは3種類ある
        • 2アリルの片方について、0本、1本、2本を持つ、3ジェノタイプと考える
        • 3ジェノタイプが平等である、というとき、このジェノタイプに{a,a,a}という重みをつける
        • 今、3ジェノタイプに{a,a+b,a+2b}という重み付けをする
          • これは、着目しているアリルをもつ本数に比例した重みである
          • 着目アリルの本数に比例したリスクがあるのではないか、というモデルについて、平等モデルに対して検定をする場合には、このような重みのモデルを用いる
        • 今、3ジェノタイプに{a,a+b,a+b}という重み付けをする
          • これは、着目しているアリルを1本持つ場合と2本持つ場合とで、同じリスクを持つというモデルである(アディティブモデル)
          • これは、優性モデルである
        • 今、{a,a,a+b}という重み付けをする
          • これは、劣性モデルである
        • その他、任意の重み付けも可能である
      • 自由度
        • 2x3分割表は自由度2であるが、2x3表の傾向性の検定は自由度1である
        • 重み付けは{a,b,c}のようにできるが、この重み付けは{0,x,1}という重み付けでxを適当にとることで代用できるので、パラメタ数はxの1個のみである。3ジェノタイプが平等であるというモデルでは、重み付けが{0,0,0}のように、パラメタ数が0個なので、自由度はパラメタ数の差である1である
        • したがって、いわゆる{0,1,2}={0,0.5,1}の傾向性の検定も優性モデルの検定も劣性モデルの検定も自由度は1である
    • 検定
      • アディティブモデル
        • 2つの漸近近似統計手法が知られる
          • Cockran-Armitageの傾向性検定
          • Trend カイ自乗検定
          • いずれも自由度1のカイ自乗分布にてp値化する
          • 両者はわずかに異なり、どちらを用いても実質的に変わらない
      • 優性モデル・劣性モデル
        • 2つの漸近近似統計手法が知られる
          • アディティブモデルで用いるTrendカイ自乗統計量を、重み付け{0,1,1},{0,0,1}にて計算し、自由度1のカイ自乗分布にてp値化する
          • 優性・劣性モデルに照らして、2x2分割表を作成し、2x2表のカイ自乗統計量を計算し、自由度1のカイ自乗分布にてp値化する
          • 両者はまったく同じである
    • ジェノタイプ数が3以上の場合
      • ジェノタイプ数が増えても、考え方は同じ
      • CNPジェノタイプに、そのコピー数の和によって順序を与え、それをあるコピー数和を基準に2分するのは、重み付けを{0,0,..,0,1,1,..,1}とするモデルである
      • コピー数和そのものを重みにするモデルとすれば
        • ディプロタイプ的ジェノタイプの場合の重み付けは{2Cm,2Cm+1,2Cm+2,...,Cm+CM,2Cm,2Cm+1,2Cm+2,...,Cm+CM+1,.....,2CM}
        • コピー数和的ジェノタイプの場合の重み付けは{2Cm,2Cm+1,2Cm+2,...,2CM}
      • 自由度は1

5 遺伝子多型分割表データの関連検定の見方 総論

  • ひとつの分割表から関連についての情報はさまざまなとりかたがある
    • 『どんな関連』について調べたいかによる『いろいろ』
    • あるひとつの『どんな関連』についても複数の検定結果が得られる、という意味でも『いろいろ』
  • フェノタイプ数Np、ジェノタイプ数Ngの分割表データが得られたとする。
  • フェノタイプとジェノタイプとが無関係(独立)であるか、そうでないかについては、いくつかの見方がある。
  • その見方は、フェノタイプとジェノタイプとに関係があるとしたときに、どのような関係を積極的に検出したいか、という意図に直結するので、それぞれの見方の特徴を理解することが適切であり、それぞれの見方に対応する検定手法を用いることが適当である。

6 Heterogeneity test

  • すべてをばらばらに見る独立性検定
  • ジェノタイプに順序を想定することなく、フェノタイプにも順序を想定しない場合に行う検定
  • SNPの場合のヘテロのジェノタイプの疾患リスクがホモのジェノタイプのいずれよりもリスクが高い場合も、ヘテロのリスクがホモのリスクの間である場合も区別せずに、淡々と、ジェノタイプとフェノタイプの間の分布の偏りがあるかないかを検定する。CNPの場合は、あるコピー数和の多寡とリスクの多寡の順序が一致する必要なく、淡々と、ジェノタイプとフェノタイプの間の分布の偏りがあるかないかを検定する
  • 検定手法
    • 漸近近似検定法
      • カイ自乗検定
        • 自由度は(ジェノタイプ数-1)x(フェノタイプ数-1)
    • 正確確率検定
      • 正確確率検定は、分割表の自由度が大きくなると計算量が大きくなり、非現実的。サンプル数が大きい場合は、自由度2くらいまでが現実的
    • 分割表の期待値
      • ジェノタイプ数がNg、フェノタイプ数がNpだとすると、NgxNpの観測人数が得られる。これをNgxNpのサイズの表にする。第iジェノタイプ第jフェノタイプの人数をobsijとする
      • 今、ジェノタイプ別に全フェノタイプの人数を合わせ、また、フェノタイプ別に全ジェノタイプの人数を合わせた人数を周辺度数と言う。第iジェノタイプの人数をgi、第jフェノタイプの人数をpj、総人数をNとする
      • フェノタイプとジェノタイプが独立だとすると、第iジェノタイプで第jフェノタイプである人数は、gi,pj,Nとから\frac{gi \times pj}{N}と期待される。これが、無関連という仮説のもとでの期待値である。
      • \chi^2=\sum_{all cells} \frac{(obs-exp)^2}{exp}
    • 正確確率
      • 観測テーブルの正確生起確率はProb(obs)=\frac{\Pi gi! \times \Pi pj!}{N!\Pi obsij!}
      • 観測テーブルの周辺度数から得られうるすべての分割表について、正確生起確率を計算し、観測テーブルのそれ以下のテーブルのそれの和をとる
  • ツールの出力
    • SNPケース・コントロール検定の場合
      • 第4,5行目に出力される
0.39758221083709255	2x3 Table ExactP
0.39512507274550895	2x3 Table ChiSqTestP(df=2)
      • また、第66行目にもカイ自乗検定の結果がカイ自乗統計量とともに出力される
1.8571058486775773	0.3951250727714267	2	ChiSqGenotype	
    • SNPの場合で、フェノタイプが3以上の場合
      • 第20行目以上以降に、"HeteroChi"として出力される
HeteroChi	p
1.9447559573578592	0.3781826577335774
    • CNPの場合
      • フェノタイプ数、ジェノタイプ数によって表示行は異なるが、第30−50行目あたりに、assoc Statistics p として現れる一連の出力の中で、以下のように表示される
6.108925662190422	0.2957638364360593	5	ChiSqGenotype	

X ツールの使い方

  • ツールへのリンク
  • 入出力フィールドは7個
  • 実行ボタンは5個
  • 入力フィールド6個
    • カテゴリカルデータの分割表に関する入力(3フィールド)
      • No.genotypes:入力データの多型のジェノタイプ数
      • No.phenotypes:入力データのフェノタイプがカテゴリ型の場合、その数
      • No.alleletypes:入力データの多型のアリル数
        • 例:SNPケースコントロール解析
          • No.genotypes=3,No.phenotypes=2,No.alleletypes=2
        • 例:SNP3カテゴリ解析(低度・中度・高度)
          • No.genotypes=3,No.phenotypes=3,No.alleletypes=2
        • 例:CNPケースコントロール解析、CNPのアリル数が3でディプロタイプ的ジェノタイプのとき
          • No.genotypes=6,No.phenotypes=2,No.alleletypes=3
        • 例:CNPケースコントロール解析、CNPのアリル数が4でコピー数和的ジェノタイプのとき
          • No.genotypes=7,No.phenotypes=2,No.alleletypes=4
    • 入力データのフォーマットに関する入力(2フィールド)
      • Count data or Raw data: 1=count, 0=raw:分割表データを入力するときは1、個人別に1行1人でフェノタイプとジェノタイプを入力するときは0
      • No. records for raw data:個人別データフォーマットのときに、レコード数(人数)を数値入力する
    • データ入力フィールド(1フィールド)
      • 2つある大きなテキストフィールドのうち、上段
      • 分割表情報の入力
        • 1形質1行
        • 1ジェノタイプ1列
        • タブ区切り
        • 全行、末尾値のあとにもタブを置く
        • 最終行の末尾値のあとにもタブを置き、改行する
        • ジェノタイプの順序
          • ディプロタイプ的ジェノタイプの場合
            • 最少コピー数ホモを0番、最少コピー数と最少コピー数+1のヘテロを1番、最少コピー数と最少コピー数+2のヘテロを2番、というように、2アリルのうちのコピー数の小さい方をA、コピー数が大きい方をBとしたとき、AiBi は辞書的順序とする
          • コピー数和的ジェノタイプの場合
            • コピー数和が最少のジェノタイプを0として、コピー数が1増えるごとに列順をひとつ上げる
10	20	30	
24	45	58	
      • 個人別情報の入力
        • 量的フェノタイプの場合には、この入力方式のみを受け付ける
        • 1人1行
        • 2列:タブ区切り
          • 第1列:形質
          • 第2列:ジェノタイプ
          • 形質がカテゴリカルの場合は、0,1,...のように0から始めて、1刻みとすること。カテゴリに順序があるときは、その順序とすること。順序なきカテゴリの場合も、適当に0,1,...とつけること。
          • ジェノタイプも、0,1,...のように0から始めて、1刻みとすること。その値は、分割表型入力のときの列順序どおりとすること
        • 各行の末尾にもタブを置いてから改行する
        • 最終行も同様に、タブを置いてから改行する
0	0	
0	0	
1	1	
0	2	
1	0	
0	1	
1	1	
2	2	
2	0	
2	1	
2	2	
0	2	
  • 実行ボタン5個
    • SNP:SNPのデータのときにこれを押す
    • CNP_diplotype:CNPデータでディプロタイプ的ジェノタイプのときこれを押す
    • CNP_copy number type:CNPデータでコピー数的ジェノタイプのときこれを押す
    • Haplotype:ハプロタイプ別のデータの場合にこれを押す
    • Clear:データ入力フィールドをクリアするときにこれを押す
  • 出力フィールド
    • 最下段のフィールド
    • データタイプごとに出力形式はまちまち
    • 出力項目ごとに改行することを原則とする