Multiple correlation coefficient, partial correlation coefficient



  • Multiple correlation coefficient
    • R^2 = ¥frac{¥sum_i (¥hat{Y_i}-¥bar{Y})^2}{¥sum_i(Y_i-¥bar{Y})^2}=¥frac{¥sum_i(Y_i-¥bar{Y})^2-¥sum_i(Y_i-¥hat{Y_i})^2}{¥sum_i(Y_i-¥bar{Y})^2}=1-¥frac{¥sum_i(Y_i-¥hat{Y_i})^2}{¥sum_i(Y_i-¥bar{Y})^2}
      • 残差の式変形についてのメモはこちら
    • ただし、Y_iは従属変数の観測値、¥hat{Y_i}は説明変数によって表される個々の期待値、¥bar{Y}は全サンプルの平均
    • この式は、¥hat{Y_i}=a+¥sum_k b_k X_{ki}のように多説明変数の線形モデルを想定している
    • 分母はtotal sum of squares。分子は、モデルに回帰された分(regression sum of squares)
    • 説明変数が1つのときは、通常の相関係数、2つ以上のときには、Multiple correlation coefficient
    • ソースはこちら
  • 多変数を分割する
    • 今、従属変数Yがある。k+p個の説明変数X_1,...,X_k,Z_1,...,Z_pがある。
    • k+p個の説明変数のうち、p個の説明変数のみで説明するモデルを考えると、そのモデルに回帰された分(regression sum of squares)が計算できて、それをSS_{REG}(Z_1,...,Z_p)=¥sum_i(¥hat{Y_i}(Z1,...,Z_p)-¥bar{Y})^2と表すこととする。このとき、このモデルで説明されていない分を、

SS_{RESID}(Z_1,...,Z_p)=¥sum_i(Y_i-¥hat{Y_i}(Z_1,...,Z_p))^2=¥sum_i(Y_i-¥bar{Y})^2 - SS_{REG}(Z_1,...,Z_p)=¥sum_i(Y_i-¥bar{Y})^2-¥sum_i(¥hat{Y_i}(Z1,...,Z_p)-¥bar{Y})^2

と表すこととする。

    • ここで、Yを、X_1,...,X_k,Z_1,...Z_pとで説明することとすると、SS_{REG}(X_1,...,X_k,Z_1,...,Z_p)は、SS_{REG}(Z_1,...,Z_p)より必ず大きくなる。この差分は、X_1,...,X_kを加えることによってもたらされたモデルへの当て嵌まりのよさに相当する。これをSS_{REG}(X_1,...,X_k|Z_1,...,Z_p)=SS_{REG}(X_1,...,X_k,Z_1,...,Z_p)-SS_{REG}(Z_1,...,Z_p)=¥sum_i(¥hat{Y_i}(X_1,...,X_k,Z_1,...,Z_p)-¥bar{Y})^2-¥sum_i(¥hat{Y_i}(Z_1,...,Z_p)-¥bar{Y})^2と表すこととする。
    • この量はF検定の対象となる統計量だが、それ以外に、以下のようにPartial correlation coefficientの定義式の成分にもなっている
  • Partial correlation coefficient
    • 3変数X,Y,Zにおいて、Zで調整した(Zの効果を除いた)XとYとの相関を見る
      • r_{XY.Z} = ¥frac{r_{XY}-r_{XZ} ¥times r_{YZ}}{¥sqrt{(1-r^2_{XZ})(1-r^2_{YZ})}}
    • 一般化して
      • R_^2{Y(X_1,...X_k).(Z_1,...,Z_p) = ¥frac{SS_{REG}(X_1,...,X_k|Z_1,...,Z_p)}{SS_{RESID}(Z_1,...,Z_p)}
      • 書き換えて

R_^2{Y(X_1,...X_k).(Z_1,...,Z_p) = ¥frac{¥sum_i(¥hat{Y_i}(X_1,...,X_k,Z_1,...,Z_p)-¥bar{Y})^2-¥sum_i(¥hat{Y_i}(Z_1,...,Z_p)-¥bar{Y})^2}{¥sum_i(Y_i-¥bar{Y})^2-¥sum_i(¥hat{Y_i}(Z1,...,Z_p)-¥bar{Y})^2}

        • これを、p=0としたものが、Multiple correlation coefficincyとなっている
          • R_^2{Y(X_1,...X_k).(¥phi) = ¥frac{SS_{REG}(X_1,...,X_k|¥phi)}{SS_{RESID}(¥phi)}
          • 書き換えて

R_^2{Y(X_1,...X_k).(¥phi) = ¥frac{¥sum_i(¥hat{Y_i}(X_1,...,X_k)-¥bar{Y})^2-¥sum_i(¥hat{Y_i}(¥phi)-¥bar{Y})^2}{¥sum_i(Y_i-¥bar{Y})^2-¥sum_i(¥hat{Y_i}(¥phi)-¥bar{Y})^2}

            • ¥hat{Y_i}(¥phi)=¥bar{Y}であることに注意すると、この式はMultiple correlation coefficintに等しいことがわかる

R_^2{Y(X_1,...X_k).(¥phi) = ¥frac{¥sum_i(¥hat{Y_i}(X_1,...,X_k)-¥bar{Y})^2-¥sum_i(¥bar{Y}-¥bar{Y})^2}{¥sum_i(Y_i-¥bar{Y})^2-¥sum_i(¥bar{Y}-¥bar{Y})^2}

      • 呼称はPartial multiple correlation coefficient