データ解析手法を確認する

  • こちらに『私がたどりついた英語論文の読み方』というとてもよい記事がある。これをまねて、データ解析手法の読み方について書いてみる
  • 目的
    • 2通り
      • 解析したいデータを出してくる実験が決まっている
      • 実験は決まっていないけれども解析のやり方に興味がある
  • 論文の探し方
    • 目的別
      • 実験が決まっている場合
        • 実験で探す
        • 対象(病名・生物種など)にはこだわらずに探す
      • 解析のやり方に興味がある
        • 解析のやり方自体が良くわかっていないのだから、ピンポイントで探せるわけはない
        • 図表をぱらぱらめくる。図表がイメージに合うかどうかの「勘」で探す(この作業は『アート』な部分があって、繰り返しているうちに、ヒットまでの時間は短くなる)
    • 目的によらない探し方のポイント
      • メソッド
        • データ解析手法のメソッド部分が十分にある
        • Materials and methodsをまず見る
          • 実験ごと、図表ごとにデータ解析手法が異なることが普通。それぞれについて、列挙できる形で書いてある→このように書いてある論文は、データ解析手法が大事だと思っている論文。そうでない論文は大事だと思っていない論文(極論)
          • 最近はsupplに回してあることもあるので、本体のMat & Meth とsupplのそれとの両方を合わせて、「データ解析手法が大事」だと思っている論文かどうかの判断をする
          • データ解析手法について、手法名とその引用文献のみでも、捨てない(孫引きすればよいだけ)
      • リザルト
        • リザルトはデータ解析手法の出力
        • 当該データ解析手法の出力が十分に提供されていることが、データ解析手法の理解には大きな役割を持つ
        • したがって、当該データ解析出力がきちんとあることを確認する
          • データ解析出力はリザルトにある
          • 本文・図・表にある
  • データ解析手法の枠のとらえ方
    • 入力と出力を確認する
    • 入力の確認
      • データ解析手法の入力は、実験の出力
      • 実験の出力を理解するには実験の原理の理解が必須
        • ここで言う実験の原理、とは、『何を調べたいか』ではなくて、『何をどうやって、測定するか』
          • "DNAの配列を調べたい"ではなくて"反応してできた物質の発する電磁波の波長別強度を●を使って量的に(質的に)数値化する"ことを確認する
      • 原理の完全把握がつらければ、実験の出力のデータフォーマットを確認する(正確なデータフォーマットはわからなくても、実験出力データとして『かくあるべし』という姿を知り、フォーマットを自分で作れるような状態になる)
    • 出力の確認
      • データ解析手法の出力のありかと形式
        • 本文のリザルトの数値や陽性・陰性。単位は大事
      • データ解析手法の出力のタイプ
        • 検定(仮説と尤度とp値)
        • 推定(点推定と区間推定)
        • 判断(複数のものの比較基準と尺度)
        • パターン(言葉・図・表で提示できるものと、その背景に隠れていて提示できないものとに分かれていることもある)
  • データ解析手法の中身の追い方
    • 「入力」→「データ解析手法」→「出力」なので、「入力」と「出力」が確定すれば、データ解析手法は「『入力』を『出力』にする方法」と説明できます
      • これがわかるだけでも、かなりのことはわかる
      • せめてこれだけはわかりたい
    • 「中身」
      • 「中身」を分割統治する
        • データのハンドリングは、すべて新規であることはほとんどなく、既存の方法やアルゴリズムをつなぎ合わせて作ってある
        • そのフローを抜き出す(その名称を列挙するだけでも十分に自他両方の勉強になる)
      • 新規な部分
        • 既存の方法・アルゴリズムのつなぎ合わせだけでできているか、新規の方法・アルゴリズムを入れてあるか、を判定する
        • 既存の方法・アルゴリズムも新規の方法・アルゴリズムも、「自分が知らないのであれば、すべて新規」
        • したがって、使われている「新旧の方法・アルゴリズム」のうち、もっとも『大事』なものから、片付けていく
          • 『大事』の基準は場合によりけりだが、特に思い入れが無ければ:
            • 『汎用性』の高いものが大事
            • 論文を選んだ理由に照らして『特異性』の高いものが大事
        • 誰かに説明するときは、「被説明者」にとっての『大事』順を想定して、取捨選択する