GCTA - ryamadaの遺伝学・遺伝統計学メモ

GCTAホームページ
GREMLと称する手法
- Genome-wide (chromosome-wide) REML(REstricted Maximum Likelihood)
遺伝要因については、全サンプルについてペアワイズに「遺伝的な遠近関係〜分散共分散」行列Gを作り、そのGに「遺伝的分散係数 $\sigma_g^2$ 」を掛けた行列 $G\sigma_g^2$ を考える。この分散共分散行列に基づくN次元正規分布に従った長さNのベクトルが、N人の「遺伝要素」であるとする
環境要因については、サンプル間で独立であると仮定し、N個の分散 $\sigma_e^2$ な正規乱数があるとする。 $N\times N$ の単位行列 $I$ を使えば $I\sigma_e^2$ なる分散共分散行列で指定されるN次元正規分布からの長さNのランダムベクトルを環境要因とする、ともいえる
その和が表現型であるとする
$y \sim N(0,G\sigma_g^2) + N(0,I\sigma_e^2)$
$y$ は表現型の観測値ベクトル
$I$ は分かっている
$\sigma_g^2,\sigma_e^2$ は推定したい値
$G$ が問題
GCTAでは、この $G$ を、「個人の遺伝的遠近の行列」であるから、ゲノムワイドSNPを使って決めてやればよいではないか、ということでそれを使っている
線形混合効果モデルでは、既知座位による固定効果も入れられるが、GCTAはGWASデータを使って既知座位は考慮せずに狭義遺伝率のみを計算している
こちらに手法ペーパー(ペイパーはGWAS,SNP,遺伝率を説明した式とその式変形との他に、REMLの計算に関する式も提示している。一般的な意味でのREMLがわかっている(もしくはそれはわからなくてもよい)のならば、その部分は無視して、GWAS,SNP,遺伝率に関する記載だけを理解することに努めるのが得策
式変形が出てくるけれど、簡単に言うと
- SNPの(0,1,2)ジェノタイプは変換する。その心は、各ジェノタイプの平均と分散が、それぞれ0と1になるようにしたい、ということ(そうすれば、各SNPに推定される線形回帰の係数の二乗の和が遺伝的分散になるなどよいことがあるし、分散共分散行列の生成にあたっても便利)
- また、分散共分散行列を作るときに、それが標準化したものであれば、 $\sigma_g^2$ の推定に持ち込んで、素直に出てきた $\sigma_g^2$ が狭義遺伝率の計算に使えるから
ここまでが原法
さらに、GWASのSNPを使って分散共分散行列を作ったけれど、使用するSNPが真のリスク座位のすべてを網羅しているわけではなく、LD関係になっているだけだとすると、「本来 $G$ は、真の座位に関する個人間の分散・共分散行列だった」ので、よろしくない。ではどうやったら $G$ っぽくできるか、というのを、リサンプリング法で調べたら、まずまずいい感じの変換式が得られたのでそれを使いましょう、というのは、改良法(LD考慮法)