ぱらぱらめくる『データ匿名化手法』

データ匿名化手法 ―ヘルスデータ事例に学ぶ個人情報保護

データ匿名化手法 ―ヘルスデータ事例に学ぶ個人情報保護

  • 目次
    • 1章 イントロダクション
    • 2章 リスクベースの非特定化方法論
    • 3章 研究レジストリ
    • 4章 縦断的な退院時要約データ:州入院患者データベース
    • 5章 日付、ロングテール、相関:診療報酬請求データ
    • 6章 縦断的イベントデータ:災害レジストリ
    • 7章 データリダクション:研究レジストリ再び
    • 8章 自由形式のテキスト:電子カルテ
    • 9章 地理空間の集約:カナダのDAコードと米国のZIPコード
    • 10章 医療分野におけるコード群:ハッカソン
    • 11章 マスキング:腫瘍データベース
    • 12章 セキュアな連結
    • 13章 非特定かとデータ品質
  • 1章
    • 匿名化(anonymization)、マスキング、非特定化(de-identification)
    • ヒューリスティクス、リスクベースアプローチ
    • 差別
  • 2章 リスクベースの比特定化方法論
    • 手順
      • ステップ1 直接識別子、間接識別子(準識別子)
      • ステップ2 閾値設定
      • ステップ3 起りそうな攻撃について調べる
      • ステップ4 データの非特定化
      • ステップ5 プロセスの文書化
    • 起りそうな攻撃のリスク測定
      • 故意
      • 非故意
      • データ侵害(データセットの紛失など)
      • 公開データ
    • 再特定リスクの測定
      • 確率メトリクス(最大リスクと平均リスク)
      • 情報損失メトリクス(エントロピー、欠損)
    • リスク閾値
      • 同値類、同値類数、k-匿名性
  • 3章 横断的データ
  • 4章 縦断的な退院時要約データ
    • データが高次元なので、3章と話が違う
    • 厳密な完全知識とおおよその完全知識
    • 日付情報は情報の宝庫→ランダム化・ノイズ付加をするなど、二次利用等には工夫することが適切
    • 複数のレコードが紐づいて一塊になっているとき、紐づいた塊が大きい部分のリスクは高い…このロングテール部分のリスク管理の問題→ロングテールの打ち切りで対処
  • 6章 縦断的イベントデータ
    • 長期間にわたって特異度が上がる情報だけれど、そのすべてについて完全な知識を持って攻撃するとは考えなくてもよい。攻撃者がどれくらい不完全な知識を有していると考えるか、それがどれくらいの攻撃力に相当するのか、というような見積もりをする
  • 7章 データリダクション
    • 大規模かつ複雑なデータセットに従来型の非特定化をすると、情報損失が大きくなるので、情報損失を抑えつつ、プライバシー保護するための工夫がなされている
    • サブサンプリングが有効なことがある(有効でないこともある)
  • 9章 自由形式のテキスト
    • テキスト内の個人情報要素を検出すること自体が問題。検出した後で、それをマスクするなり、それに基づいて上述の手法に基づく処理をするなりするわけだが、その元が問題
  • 9章 地理空間の集約
    • クロッピング
    • 隠しながらも、相互の位置関係の情報は失いたくない
  • -
  • 10章 医療分野におけるコード群
    • コード
      • 国際疾病分類ICD
      • 医療通用手技用語集CPT
      • 全米医薬品コードNDC
    • シャッフリング
  • 11章 マスキング
    • フィールド秘匿
    • ランダム化
    • 仮名化
    • 動的マスキング
  • 12章 セキュアな連結
    • 連結
    • 関係者
      • 完全に信頼できる関係者
      • 半分信頼できる関係者
      • 悪意のある関係者
    • 連結のためのプロトコル
      • 加法準同型暗号システム
      • Paillier 暗号加算・Paillier 暗号乗算
      • カッコウ・ハッシング
  • 13章 非特定化とデータ品質
    • 情報損失・有用性