第3章:chapter 3

EVOLVE研究に見られる統計手法の問題と課題

監修:濱野高行(大阪大学大学院医学系研究科腎疾患統合医療学寄付講座 助教)

1.はじめに

仮説が証明できなかった無作為化比較試験(RCT)は、一般的に”negative study”として評価される。San Diegoで開催されたASN2012での発表の後、2012 年 11 月のNew England Journal of Medicine に掲載されたEVOLVE試験に対しても、Intention to treat (ITT)解析の結果”negative study”という評価が一般的であると推察される。しかし、“negative study”という単純な表層的な理解に終わらせてしまっていいのだろうか?

本研究では、シナカルセト塩酸塩(以下シナカルセト)が上市されてからの研究であったが故に、高い脱落率やコンタミネーションなどが観察され、残念な がらRCTの原則が守られなかった無作為化比較試験と言わざるをえない。このような場合にRCTで通常なされるITT解析に固執した解析だけではなく、質の 高い観察研究とみなして解析をすることで、またとない貴重な知見が得られる事をEVOLVE試験は示している。

2.介入研究デザイン(RCT)における無作為割付

無作為化比較試験では無作為割付の実施により、測定しているパラメーターだけでなく、測定していないパラメーターについても両群のバランスが保たれる ことが期待できる。ここでは保存期慢性腎臓病(CKD)症例における低タンパク食の腎機能低下抑制効果を検証する無作為化比較試験(RCT)を例に、ITT解析 の意義を解説する(図1)。

一般的に、このような生活習慣に対する介入では被験者毎の計画遵守にバラつきが想定され、遵守良好の患者もいれば、脱落してしまう患者も存在する。低タンパク食の介入効果を検証する際、低タンパク食群全例と通常食群の比較を行うのか、それとも低タンパク食遵守群のみを対象とするのかで検討結果は大きく異なる。低タンパク食遵守群と通常食群の比較を行った場合、低タンパク食群に含まれる解析対象症例が減少するだけでなく、計画遵守に関連する患者の気質(例:勤勉な性格、同時に服用している薬剤のコンプライアンスの良さなど)が比較する2群間で異なる可能性や、さらには一部の低タンパク食群が解析対象となることにより、無作為割付に基づく通常食群との背景のバランスが崩れる。

つまり、計画遵守症例のみを対象とした解析(Per protocol解析)では、例えば勤勉な性格の患者が低たんぱく食群のみから選ばれることになって、検討結 果にバイアスが混入する可能性が極めて高く、無作為割付による背景因子のバランスの保持および、有効性の検証を行うという観点から、非遵守群も含めた Intention to treat解析(ITT解析)による検討が必須となる。

ITT解析の利点として、1介入要因以外の患者背景に比較群に偏りがない(測定 /未測定に関わらず)、2副作用やコンプライアンスを含めた実際の効果を通常 最もよく反映するという点があげられる。一般に政策決定やガイドライン策定では、副作用やコンプライアンスも薬剤の重要な特性であることからITT解析の結果が、per protocol解析よりも重要視される。

3.介入研究デザイン(RCT)の特質

一般的にRCTにおけるITT解析は、薬剤間の差を検証する上で最も信頼性の高い評価法とされている。しかしながら、TT解析が群間差を効率よく検出するためには、プロトコールに従った試験の遂行が前提となる。つまり、この前提が成立しない場合には薬剤の差を効率的に検出しにくくなるということである。このような薬剤の差を見出すことが困難となる状況、つまりRCTデザインに基づく評価の信頼性が低下し得る状況について、EVOLVE試験を例に解析結果の解釈に際してのポイントを解説する。

EVOLVE試験概要

本試験はシナカルセトが心血管イベントを減少させるかを評価する二重盲検プラセボ対照無作為化比較試験で、二次性副甲状腺機能亢進症を有する透析患者 3,833例を対象としている。主要評価項目として総死亡および非致死心血管イベ ントが設定されている。ITT解析による最終解析の結果において,偽薬群(プラ セボ群)と比較してシナカルセト群に統計学的有意差は認められなかった(ハザ ード比=0.93:p=0.11)。ただし、心不全については、ITT解析においても有意に抑制した(ハザード比=0.82:p=0.03)。

ITT解析による検出力低下の原因

ITT解析において、本来あるはずの薬剤間の差が見出せない原因として、“有 害事象などによる脱落”および“クロスオーバー(図2)”の影響が考えられる。 試験計画時におけるシナカルセト群の年間脱落率は10%、プラセボ群における市販品のシナカルセト(commercial cinacalcet:以下”市販品”)※への切替え率は10%と想定されていたが、実際の年間脱落率は27.3%であり、切替え率は23%といずれも計画時を大きく上回っていた(図3)。

割付治療からの逸脱”について、EVOLVE試験では副甲状腺摘出術(PTx)のみでなく、薬剤が発売されていた状況下で実施された試験であるがゆえに“市販品の選択”が可能であったことの影響が考えられる。割付治療によって十分な副甲状腺ホルモン(iPTH)低下が得られない場合に起こり得る“PTxや市販品の選択”は、プラセボ群におけるイベント発生の低下を招くことから、ITT解析における検出力を低下させる。このようにして、プラセボ群における脱落症例の多くが市販品の使用を開始する、いわゆる“試験薬のクロスオーバー”が実質的に起こっており、このクロスオーバーに起因するコンタミネーションの影響は非常に甚大なものである。

無作為割付が行われ、試験が開始された後のコンプライアンス不良・脱落・追 跡不能および試験薬のクロスオーバーによるコンタミネーション(図2)は、比 較群間差の検出力を大幅に低下させる。ここでいう検出力とは、真に差が存在する際に差があったという結果が得られる確率のことであり、計画時における EVOLVE試験の検出力は90%であった。しかし,想定を超える脱落や市販品への高い切替え率などにより、EVOLVE試験における実際の件出力は2回に1回(約50%) つまり、コイントスと同等の確率にまで低下していた(図3)。

※米国・欧州・豪州などで処方箋医薬品として販売されているシナカルセト塩酸塩(商品名:Sesipar®,Mimpara®)

事前に計画された対応策:Lag-censoring解析

“ランダム化の下”において試験結果の質が担保される無作為化比較試験では、有効性比較を行う各治療群のすべての背景因子に全体として差がないことが期 待できる。しかし、この“ランダム化の下”という前提を保持する必要があることから、試験開始以降において割付治療が継続されていない場合においても 試験開始時における無作為割付に則り、全症例を対象としたITT解析が実施される。そこで、試験開始以降に発生する、検出力低下を招く可能性がある様々な事象の影響を回避することが重要である。

特に薬剤が販売された状況下で実施されたRCTであるEVOLVE試験においては、プラセボ群において、その効果を期待して市販品に切り替えられることが想定された。この対応策として感度分析による対策があらかじめ解析計画時に考案されていた。

Lag-censoring解析による検討結果

無作為に割付けられた治療の中断および、他の治療オプションの選択がITT解析での有効性の評価に影響を及ぼすことは先述の通りであり、他のアプローチとして“計画遵守症例のみを対象とした解析(Per protocol)”が実施される。しかし、現実的には解析から除外される服薬非遵守症例についても、試験開始後の一定期間は試験薬が投与されており、そのような症例において試験薬の服薬時点までを解析対象とする検討である。

上述の状況下において、臨床的観点から試験薬のアウトカムへの影響が中止と共に瞬間的に消失するとは考え難く、中止後においても暫くの間は残存する“持ち越し効果(carry-over effect)”の存在が考えられる。実際、シナカルセト+ 低用量ビタミンD併用療法の血管石灰化進展に対する影響を検討したADVANCE試験において、シナカルセトの血管石灰化への恩恵が確認されているが、この薬剤をやめたからといって、すぐに血管石灰化が増悪するわけではないことは想像に難くない。つまり、おそらく血管への影響は薬剤中止後も持ち越される。

このような観点から、EVOLVE試験の解析案計画時においては本課題に対する対策として、観察研究で用いられるような解析であるLag-censoring解析が用意された。Censorとは“観察の打ち切り”を意味するが、観察の打ち切り日を様々に変えた感度分析がなされている。服薬順守終了日と観察打ち切り日の期間を lagと定義すると、割付治療の遵守終了日を観察打ち切り日と定義する”0カ月 モデル(Lag=0)“から、割付治療の遵守終了日の18ヶ月後を観察打ち切り日と定義する”18カ月モデル(Lag=18)まで検討されている(図4)。

各Lag-censoring解析において、服薬順守終了後の観察期間が長くなるとともに、プラセボ群に比したシナカルセトの予後改善効果の目減りが認められている。 解析計画において石灰化進展抑制の観点から6ヵ月モデル(Lag=6)を採択する事が明示されており、感度分析結果において複合エンドポイントリスクの有意な 減少が認められている(ハザード比=0.85:p=0.003)(図5)。驚くべきことに、シナカルセトの影響は、服薬中止後1年間においても有意であったことは特筆すべきであろう(ハザード比=0.87:p=0.008)。EVOLVE試験をnegative RCTと表層的にみなし続けることに頑迷に固執すれば、このような重要な知見は決して見えてこないであろう。

ITT解析の限界

RCTにおけるITT解析は最も信頼性の高い評価法であるが、コンプライアンスが 悪い場合には、不当にその薬剤の評価が低くなってしまう。残念ながら想定を上回る脱落率に加えて、割付治療のクロスオーバーが生じてしまったEVOLVE試験においては、妥当な検証を行うために必要となる十分な検出力が担保されなかった。このような場合においては、RCTであってもITT解析の結果のみでは治療の有効性を十分に判断する能力(検出力)を有していないことから、Lag-censoring解析などの観察研究に用いられる統計解析手法を用いたバイアス調整が有効であるものと考えられる。

4.まとめ

観察研究にもRCTにも、固有のメリット、デメリットが存在し,どちらが優れているというものではなく、相補的なものであるEVOLVE試験は、RCTであるがゆえ にITT解析にこだわらざるを得ない。しかしながら高いクロスオーバーおよび脱落率を考慮した際、本試験が完全なRCTとは残念ながら言えない。患者や担当医師が、中途から患者の実情に合わせていろいろなchoiceを選べたという点で、ランダム化は当初はなされていても、途中からはむしろreal world、つまりは観察研究に近い状況になっている。この現実が、統計学的パワーが50%にすぎないという状況を作りしめた。

であるならば、EVOLVE試験を単純にRCTとして扱うだけでなく、むしろ質の高い観察研究として見なし、ランダム化が行われていない観察研究様の解析手法を用いて検討する事により、医学的にも意義の高い新たな情報が得られる。EVOLVE 試験はそのような場を我々に提供したとも言える。

contents

第1章:chapter 1
マドリードカンファレンスで何が討議されたか?
深川雅史(東海大学医学部内科学系腎内分泌代謝内科教授)
第2章:chapter 2
KDIGO CKD-MBDガイドライン改訂の方向性は?
風間順一郎(新潟大学医歯学総合病院血液浄化療法部准教授)
第3章:chapter 3
EVOLVE研究に見られる統計手法の問題と課題
濱野高行(大阪大学大学院医学系研究科腎疾患統合医療学寄付講座助教)
第4章:chapter 4
KDIGO活動の現状ーガイドライン作成・改訂、コントロバーシーカンファレンスと インプリメンテーション活動ー日本の貢献は?
塚本雄介(IMSグループ板橋中央総合病院副院長)