上がったり下がったり

  • 構造化集団からのサンプルにおいて、多数の検定を行い、それを補正する場合、統計量のインフレーションとそれに伴うp値の低下を均並みに補正することもあれば、統計量のインフレーションの原因である構造化から情報を抽出して個々の検定ごとに補正することもある。
  • 前者の補正方法では、p値がすべて大きくなるのに対して、後者ではp値は大きくなったり小さくなったりする。
  • これを説明するための式変形。
  • 簡単のために、構造化は、2つの均質2集団(pop1, pop2)からなるとする
  • リスクアレルがあり、それはpop1,pop2ではそれぞれ、2集団のそれぞれについて、全体での頻度がr1,r2であり、それぞれでのケースでのアレル頻度は、r1+d1,r2+d2(d1,d2>=0)とする
  • 今、r1>=r2となるようにpop1,pop2を定めても一般性を失わないのでそのようにする
  • ここで、ケースは、pop1:pop2=q1:(1-q1)の割合でサンプリングされ、コントロール(集団全体)はq2:(1-q2)の割合でサンプリングされたとする
  • ケース・pop1・リスクアレル:q1(r1+d1)
  • ケース・pop1・非リスクアレル:q1(1-r1-d1)
  • ケース・pop2・リスクアレル:(1-q1)(r2+d2)
  • ケース・pop2・非リスクアレル:(1-q1)(1-r2-d2)
  • コントロール・pop1・リスクアレル:q2 r1
  • コントロール・pop1・非リスクアレル:q2(1-r1)
  • コントロール・pop2・リスクアレル:(1-q2)r2
  • コントロール・pop2・非リスクアレル:(1-q2)(1-r2)
  • 由来集団によらないケース、コントロールのリスクアレルは
    • ケース:q1(r1+d1)+(1-q1)(r2+d2)
    • コントロール:q2 r1 + (1-q2)r2
  • ケース、コントロールのアレル頻度の差は
    • (q1-q2)(r1-r2)+q1 d1 +(1-q1)d2
  • 今、M=(q1-q2)(r1-r2)の正負によって場合分けする
    • M=0の場合は、ケースコントロールのアレル頻度差はq1 d1 +(1-q1)d2 であり、d1,d2>=0であるから差は0以上。これは、リスクアレル頻度差は真のリスク増分があるときにのみ、ケースの集団構成比率の影響を受けて算出されることをしめしている
    • M>0の場合は、リスクアレル頻度差が、真のリスクによる増分に加えて、ケース・コントロールの集団構成比率の違いによって増加することを示している
      • 今、M>0である場合とは、r1>=r2(pop1のリスクアレル頻度はpop2のそれ以上)と定めたから、リスクアレル頻度が大きい集団からのサンプリング割合が、ケースではコントロールより大きいときといえる
      • この場合は、適切な補正によって、この増分が解消される→p値は大きくなる
    • M<0の場合は、リスクアレル頻度差が、真のリスクによる増分から、ケース・コントロールの集団構成比率の違いによって現象することを示している
      • 今、M<0である場合とは、r1>=r2(pop1のリスクアレル頻度はpop2のそれ以上)と定めたから、リスクアレル頻度が大きい集団からのサンプリング割合が、ケースではコントロールより小さいときといえる
      • この場合は、適切な補正によって、この減少分が解消される→p値は小さくなる