解析変数次元とepistasis解析 - ryamadaの遺伝学・遺伝統計学メモ

書き終わるかどうか、不明な書きかけ(今月の宿題)

予備項目
- カテゴリカル変数の次元についてのメモ(こちら)
- 変数の数
  - 関連解析を想定する
  - 量的変数は次元１の変数とする(量的変数には、順序のあるカテゴリ変数を含める)
  - カテゴリカル変数は、複数のカテゴリを持つ。そのカテゴリの数をnとすると、このカテゴリカル変数は、n個の異なる変数に分解できる。n個の分解された変数の１つ１つが１つの次元を持つ。ただし、あるサンプルは、nカテゴリのカテゴリカル変数を分解してできるn個の変数について、ただひとつの変数において、『陽性』の値を持ち、それ以外のn-1個の変数について『陰性』の値を持つ
  - ただし、http://d.hatena.ne.jp/ryamada22/20060706/1152195485:title=こちら]の記事にても触れたが、カテゴリ数n個のカテゴリカル変数は、n-1個のベクトルが張る空間上のn個の点のいずれかしか取りえないという特殊事情を抱えている点に留意する
  - 今、量的変数が2個、カテゴリ数3のカテゴリカル変数が1個、カテゴリ数2のカテゴリカル変数が1個あるとき、2+1*3+1*2=7　で、変数の数は7個となる
- 変数の値
  - カテゴリカル変数から作られた複数のダミー変数には、それぞれダミー値を与える。n個のカテゴリの個々のダミー変数について、たとえば{1,0}や{1,-1}などのダミー値を与えるが、前述の通り、n-1個のベクトルが張る空間上のn箇所になるようにn個(もしくはn-1個)のダミー変数の値は相互に制約を持っていることに留意する
- 関連
  - 任意の変数の組み合わせを２つ作り、変数の組み合わせペア間での関連は、偏差積和に準じた計算等によって定められる。その強さや有意差について、ここでは詳しく述べない
  - 今、このような変数を持つデータについて、さまざまな変数同士の関連の強さを示す指標を計算し、また、その有意差を検定することが可能である
  - また、複数の変数ペアについて検定した場合には、しかるべき方法で有意差を補正する方法もある
本論
- 上述のようにして設定した変数(ダミー変数)について(のみ）解析することは、変数同士の相互作用を考慮していないこととなる
- １つのカテゴリカル変数が与えるn個のダミー変数同士は、相互に独立であるが、1<=k<=nなるk個を取り出して、それのORをとり、新たな次元として設定することが可能である。この組み合わせは $2^n$ となっている
- 要素数nにおけるべき集合とそれらの要素の任意の組み合わせ数に関しての関連記事はこちら
- １つのカテゴリカル変数が与えるn1個のダミー変数の組み合わせと別のカテゴリカル変数が与えるn2個のダミー変数の組み合わせとは、相互に独立だから、 $2^{n1} ￥times 2^{n2} = 2^{n1+n2}$ なる次元が出現する。このようにカテゴリカル変数が作るダミー変数の指数関数的な次元の高さがepistasis解析に相当する。

とりあえず、書き下しの書きかけ項目。要、修正。