第3限 要約統計量(代表値)(記述統計) 遺伝統計学のための統計学基礎
- データ集合の特徴を抽出して数値として表現するとき、それはデータ集合を代表する値であり、「要約統計量」と呼ばれる。データ集合に算術処理をして得られる
- 1変数のデータ集合の特徴を表す要約統計量、2変数データ集合間の特徴を現すそれ、多変数(3以上)データ集合の特徴のそれにわけて記述する
- 1変数データの場合
- 最頻値、中央値、平均値(算術平均値・調和平均値・幾何平均値)は、分布を代表する値である
- 最大値・最小値、パーセンタイル値、分散・不偏分散は、分布の広がりを特徴づける値である
- 歪度、尖度はそれぞれ分布の左右対称度、とがり具合を表す値である
- 2変数データの場合
- 各標本は2変数の値を持っている。今、ある標本の1変数の値が与えられたときに、もう1つの変数の値が完全に予測できる(完全従属)か、まったく予測できないか(完全独立)、を数値として表した値・指標としていくつかある
- 1変数の要約統計量は、間隔尺度・比尺度でのみ求めることができたが、2変数間の関係は名義尺度・順序尺度でも定義可能である(尺度についてはこちら)
- 名義尺度の場合には、のような数式で関係を表すことができないので、分割表(変数XがNx個のカテゴリを持ち、変数YがNy個のカテゴリを持つとき、Nx x Nyの分割表)に基づいて、2変数の関係を表す値を算出する。それに対し、順序尺度・間隔尺度・比尺度の場合には、2変数の値を数値で取り扱うことが可能で、という関係で捉えることが可能なので、この枠組み(線形回帰の枠組み)で関係を表すことができる(ただし、2変数のカテゴリ数がどちらも2個の場合には、そのカテゴリを0か1かとして捉えることが可能であるので、2x2分割表を作る名義尺度2変数の場合には、線形回帰直線になぞらえた評価指標を用いることができる)
- 名義尺度の場合(分割表による評価)
- 完全独立の状態に得られると期待される分布に対してカイ自乗値を求める。そのカイ自乗値を用いて、尺度を変えたいくつかの指標がある。このカイ自乗値はいわゆるカイ自乗検定の統計量と同じである
- (ファイ)係数とクラメール係数
- 分割表の観測度数とそこから作成される独立の場合の期待度数とが一致すると、2変数は互いに独立である
- 他方、変数Xと変数Yとのカテゴリ数のうちの小さい数について、個のセルにのみ観測度数があるとき、2変数は完全に従属関係である。さらに、この個のセルのうち、個のセルの観測度数もゼロとなり、ただ1つのセルにのみ観測される極限は、もっとも大きな値となり、その値はをとる
- 係数もクラメール係数も独立のときには0となるが、全Nx x Ny個のセルのうち、ただ1つのセルに全標本データが集中した場合に、最大値をとる。係数の場合その値は、(ただし)となり、分割表サイズに依存してしまうのに対し、クラメール係数は分割表サイズによらず、1になるように係数を補正した指標であるとする
- 2x2分割表のときには、であるので、である
- 2x2分割表のときのはピアソンの積率相関係数(間隔尺度変数で定義される係数、後述する)の絶対値に同じ
- 順序尺度の場合
- 順序尺度の場合、変数の値に大小関係はあるが、その数値の差には意味がない。意味がない情報を用いて算出した値も意味がないので、2変数間の関係を表す指標の計算にあたっても、「正しい情報」のみを用いることとする。この正しい情報が「順序」であり、2変数の独立・従属の程度は、標本が作る2変数の順序が完全に一致するか、最も不一致(まったくの逆順)かという情報も同じく正しい。完全に一致するときに1となり、完全に逆順になるときに-1となるように補正した2つの指標が代表的である。ひとつは、スピアマンの順位相関係数であり、もうひとつはケンドールの順位相関係数である。スピアマンは各標本の2変数の順位の差を距離とした統計量を用いて、となるように補正したもの、ケンドールは標本の序列を乱さない標本数と乱す標本数とから得られる統計量を同じくとなるように補正したものである
- 間隔尺度・比尺度の場合
- 間隔尺度・比尺度の場合、変数の大小関係に加えて、数値の差にも意味がある。数値の差を直線相関になぞらえることができるような場合に適切な指標、ピアソンの積率相関係数がある(逆に言うと、非直線相関(曲線相関など)が適切な場合には、ピアソンの積率相関係数よりも順序尺度用の相関指標の方が適切であることがある)
- ピアソンの積率相関係数
- 、(変数Xと変数Yの共分散、の分散)
- 式からわかるように、変数Xと変数Yについて対照な指標である。分子は変数XがXの平均から離れているときに変数Yもその平均から離れているようなサンプルが多ければ大きくなるような統計量である。分母の大小は、2変数個別のばらつきの大小の影響を受ける(2変数個別のばらつきが大きければ、分母も大きくなりやすく、その逆も真)であるから、変数Xのばらつきと変数Yのばらつきで補正してある(最大1、最小-1)
- 回帰直線との関係
- 多(3以上)変数データの場合
- 主な要約統計量の算出式はこちら