生存期間中央値と治療の「良しあし」と治療の選好基準

  • 研究発表を拝聴しながら考えたこと
  • 生存期間中央値(MST)のこと
    • 生存期間中央値についてはこちら、とか
    • 生存解析をしていて、介入の効果を1つのスカラー量で表すとき、生存時間の中央値を取り出して比較することはよくやられること
    • 指数関数の尾が2つ並んでいるようなときには、このMSTの大小によって、生存曲線の違いのほぼすべての情報を汲みつくせるのでよい指標である(なぜ1つのスカラー量で「汲みつくせるか」と言えば、指数関数がパラメタ数が1個の関数だから)
    • しかしながら、生存曲線がこれから外れるときには、必ずしもそうではない
      • たとえば、介入効果が遷延して現れる場合(治療効果の出現メカニズムがそうなっているとき。介入後しばらくは差がなく、遅れて差が表れてくる〜delayed separationというらしい)
      • 対象者の一部にのみ効果がある場合(この場合も初めの方は、無効群による生存曲線の落下が顕著で、後になって、「一部の有効対象者」の存在が見えてくる
    • このようなとき、必ずしもMSTでは、曲線をうまく比較できない、というのが問題らしい
    • 整理しよう
    • 「1スカラー量」で代表させたい
    • 「1スカラー量」は「意味がわかり易い」ものがよい
      • わかりやすさは「医師研究者でも」わかるように、という雰囲気で語られていたが、それよりも「患者が」わかるように、ということの方が大切だろう…
    • ハザード比やログランクP値は「わかりにくい」ものとされるらしい
    • 望ましい「1スカラー量」は
      • 2つの生存曲線がある
      • 同じか違うかが知りたい
      • 違いの程度が数値で知りたい
      • その違いの程度が、「○○が『選好』するときの順序」を表していてほしい
    • 「治療をすると、平均してどのくらい生きられるか、平均余命の長短で治療を選びたい」ヒト(患者)にとっては、「平均余命」がその指標。それは、生存曲線のAUC(みたいなもの)。脱落を考慮、とかいろいろあるのでそのあたりは適宜対応するとして。
    • 「平均余命として、一番ありそうな期間はどれくらいですか。それが長い方にしたいです」というヒト(患者)もいそうだ。その場合は、分布を取って、最頻値に相当するものがほしいだろう(脱落、云々は、上記に同じ)。生存曲線であれば、微分が最大のところ
    • 以上は、いわゆる「記述統計」の基本指標に関して考えた結果である
    • 他にも選好基準があるだろうか?
    • 「治療Xを受けると100%のヒトの平均余命は6か月ちょうどで、ばらつきがありませが、治療Yを受けると、余命1か月の方が50%、11か月の方が50%です」という場合はどうだろうか?MSTは同じ、平均余命も同じ。最頻値は違う。しかし、この場合は最頻値の違いとくくるよりも「ばくち度の大小」としてとらえることが適当だろう。治療Xの平均余命がYのそれより短くて、全員が3か月の余命だとしても『娘の結婚式が2か月後』に控えている人は、全員が治療Xを選びたいかもしれない
    • 「ばくち性」という視点で考えると、こんな場合もあるかもしれない。「治療Xを受けるか受けないかの2つの場合を比べます。Xを受けないと、余命が半年の人が50%、1年の人が50%である。Xを受けると、『受けなかったら半年の余命の人は余命が1年になり、受けなかったら1年の余命の人は余命が7か月になる』と言う。これは、生存曲線だけからはわからない情報で、個々の受療者に対する影響のことが問題になる。対応のないt-testと対応のあるt-testの違いのようなもの。このような場合「自分がXでメリットを受ける側か、デメリットを受ける側かがわかってい」れば、もちろん選択は容易だが、それがわからないとき、どうしたいと思うだろうか?みながみな、同じ判断をするとは思わない。「フロンティアスピリットのアメリカ」では、Xを受けたいと思う人が多いだろう。経験からもそんな気がする。アメリカで診療したヒスパニックは、どちらかと言えば、Xを受けたくないと思う人が多かったように思う(バイアスの可能性きわめて高いが)。日本人は・・・。受けたくない人は少なくなさそうに思う。
    • 「入れ替え度」とでも呼ぶような効果だろうか
    • もし簡単な指標として取り出すなら「余命が伸びる割合」だろうか
    • そうすると、生存曲線を表現する「1スカラー量」だけでは情報不足で、「2つのカーブ」を構成する構成要素の対応関係の情報も、選好判断には必要な場合もあることになる
    • 以上、「平均値」「中央値」「最頻値」「ばくち度」「入れ替え度」と言った指標が選好判断に有用と言えそうだ
    • 治験では「生存期間への影響」が「異なる」ことを示し(集団としての生存曲線が異なることを示すのが『対応のない生存解析』で、生存期間への影響を個人単位でみれば(見られれば)『対応のある生存解析』。いずれにしろ「生存期間への影響」が異なるかどうかが、第一の判断基準)、
    • その上で、違いが「選好上」、どのような違いであるかは、複数の判断尺度にゆだねる必要がある、というのが、本当はやりたいことなのではないだろうか。そこのところがあいまいなので、「医師研究者は生存解析の『統計学的に適切な指標』を理解できないので、指標として曖昧な「中央値」だけで議論をしていて、不毛」という意見が統計担当者から出て、逆に「『使える指標』がほしいんだと言いつつ、本当にみたい基準に照らして、有意差が出たのかについての情報を取得することに成功していない、医療界」という構図になっているような印象がある。