第3限 要約統計量(代表値)(記述統計) 遺伝統計学のための統計学基礎



  • データ集合の特徴を抽出して数値として表現するとき、それはデータ集合を代表する値であり、「要約統計量」と呼ばれる。データ集合に算術処理をして得られる
  • 1変数のデータ集合の特徴を表す要約統計量、2変数データ集合間の特徴を現すそれ、多変数(3以上)データ集合の特徴のそれにわけて記述する
  • 1変数データの場合
    • 最頻値、中央値、平均値(算術平均値・調和平均値・幾何平均値)は、分布を代表する値である
    • 最大値・最小値、パーセンタイル値、分散・不偏分散は、分布の広がりを特徴づける値である
    • 歪度、尖度はそれぞれ分布の左右対称度、とがり具合を表す値である
  • 2変数データの場合
    • 各標本は2変数の値を持っている。今、ある標本の1変数の値が与えられたときに、もう1つの変数の値が完全に予測できる(完全従属)か、まったく予測できないか(完全独立)、を数値として表した値・指標としていくつかある
    • 1変数の要約統計量は、間隔尺度・比尺度でのみ求めることができたが、2変数間の関係は名義尺度・順序尺度でも定義可能である(尺度についてはこちら)
    • 名義尺度の場合には、y=a¥times x + bのような数式で関係を表すことができないので、分割表(変数XがNx個のカテゴリを持ち、変数YがNy個のカテゴリを持つとき、Nx x Nyの分割表)に基づいて、2変数の関係を表す値を算出する。それに対し、順序尺度・間隔尺度・比尺度の場合には、2変数の値を数値で取り扱うことが可能で、a¥times x +bという関係で捉えることが可能なので、この枠組み(線形回帰の枠組み)で関係を表すことができる(ただし、2変数のカテゴリ数がどちらも2個の場合には、そのカテゴリを0か1かとして捉えることが可能であるので、2x2分割表を作る名義尺度2変数の場合には、線形回帰直線になぞらえた評価指標を用いることができる)
    • 名義尺度の場合(分割表による評価)
      • 完全独立の状態に得られると期待される分布に対してカイ自乗値を求める。そのカイ自乗値を用いて、尺度を変えたいくつかの指標がある。このカイ自乗値はいわゆるカイ自乗検定の統計量と同じである
      • ¥phi(ファイ)係数とクラメール係数
        • 分割表の観測度数とそこから作成される独立の場合の期待度数とが一致すると、2変数は互いに独立である
        • 他方、変数Xと変数Yとのカテゴリ数のうちの小さい数tについて、t個のセルにのみ観測度数があるとき、2変数は完全に従属関係である。さらに、このt個のセルのうち、t-1個のセルの観測度数もゼロとなり、ただ1つのセルにのみ観測される極限は、もっとも大きな値となり、その値は¥sqrt{t-1}をとる
        • ¥phi係数もクラメール係数も独立のときには0となるが、全Nx x Ny個のセルのうち、ただ1つのセルに全標本データが集中した場合に、最大値をとる。¥phi係数の場合その値は、¥phi=¥sqrt{t-1}(ただしt=min(Nx,Ny))となり、分割表サイズに依存してしまうのに対し、クラメール係数は分割表サイズによらず、1になるように¥phi係数を補正した指標であるとする
        • 2x2分割表のときには、¥sqrt{t-1}=1であるので、¥phi=V=1である
        • 2x2分割表のときの¥phiはピアソンの積率相関係数(間隔尺度変数で定義される係数、後述する)の絶対値に同じ
    • 順序尺度の場合
      • 順序尺度の場合、変数の値に大小関係はあるが、その数値の差には意味がない。意味がない情報を用いて算出した値も意味がないので、2変数間の関係を表す指標の計算にあたっても、「正しい情報」のみを用いることとする。この正しい情報が「順序」であり、2変数の独立・従属の程度は、標本が作る2変数の順序が完全に一致するか、最も不一致(まったくの逆順)かという情報も同じく正しい。完全に一致するときに1となり、完全に逆順になるときに-1となるように補正した2つの指標が代表的である。ひとつは、スピアマンの順位相関係数であり、もうひとつはケンドールの順位相関係数である。スピアマンは各標本の2変数の順位の差を距離とした統計量を用いて、-1 ¥sim 1となるように補正したもの、ケンドールは標本の序列を乱さない標本数と乱す標本数とから得られる統計量を同じく-1 ¥sim 1となるように補正したものである
    • 間隔尺度・比尺度の場合
      • 間隔尺度・比尺度の場合、変数の大小関係に加えて、数値の差にも意味がある。数値の差を直線相関になぞらえることができるような場合に適切な指標、ピアソンの積率相関係数がある(逆に言うと、非直線相関(曲線相関など)が適切な場合には、ピアソンの積率相関係数よりも順序尺度用の相関指標の方が適切であることがある)
      • ピアソンの積率相関係数
        • r=¥frac{cov_{XY}}{¥sqrt{V_X}¥times ¥sqrt{V_Y}}、(cov_{XY}=変数Xと変数Yの共分散、V_{M}=Mの分散)
        • 式からわかるように、変数Xと変数Yについて対照な指標である。分子は変数XがXの平均から離れているときに変数Yもその平均から離れているようなサンプルが多ければ大きくなるような統計量である。分母の大小は、2変数個別のばらつきの大小の影響を受ける(2変数個別のばらつきが大きければ、分母も大きくなりやすく、その逆も真)であるから、変数Xのばらつきと変数Yのばらつきで補正してある(最大1、最小-1)
        • 回帰直線との関係
          • 2変数の間隔尺度データの直線相関は、y=a¥times x + bなる回帰直線をとしても表現できる。変数Xと変数Yには、相関があるとき、片方が独立変数でもう片方が従属変数として取り扱われ、回帰直線y=a¥times x + bではxが独立変数、yが従属変数という関係で捉えるが、現在は変数Xと変数Yとを相対的に捉えているから、この2変数間には、y=a¥times x + b、、x=a’¥times y + b’という2つの直線が定義できる
            • a=¥frac{cov_{XY}}{V_{X}}
            • a’=¥frac{cov_{XY}}{V_{Y}}
          • このa,a'の定義からわかるように、回帰直線の傾き(a,a')はそれぞれ、2変数の共分散を独立変数の分散で補正している。ピアソンの積率相関係数は独立変数と従属変数の両方の分散で補正している点が異なる
          • 式変換から
            • a¥times a’ = r^2、(r:ピアソンの積率相関係数)の関係があることがわかる
  • 多(3以上)変数データの場合
    • 相関は、「あるものとあるもの(2つのもの)」の間に定義される関係であるから、3以上の変数があった場合には、N個の変数が作る、すべての2変数ペア(¥frac{N¥times (N-1)}{2}通り)について2変数間の相関係数が計算できる
    • 相関係数行列は多変数データの相関についての抽出情報であるが、要素数が多いため、その意味がわからない(抽出が甘い)。したがって、相関係数行列から情報を抜き出して得られる指標が作成されている。偏相関係数と重相関係数である
    • 相関係数
      • 変数X_iX_jとの他にN-2個の変数があるが、p(p<=N-2)個の変数が固定された場合の変数X_iX_jとの間の相関係数をp次のオーダーの偏相関係数として定義する
      • 算出上は固定するp個の変数を順次固定して次数を上げる(漸化式)。変数の繰り込み順は結果に影響しない
    • 相関係数
      • 変数X_iとN-1個のその他すべての変数の集合とを対峙させ、変数X_iがその他の変数でどのくらい独立しているか、従属しているかを指標化したもの。重回帰分析における重相関係数のことである(2変数の場合には、重相関係数相関係数は一致する=重相関係数は2変数の相関係数の拡張である)

  • 主な要約統計量の算出式はこちら