蛇美

私は今日まで生きてきました…

【記事】EBMに潜む八つのワナ~論文を正しく読むコツ~

前回まで、血管合併症予防に関するエビデンスの有無に基づいた糖尿病治療薬選択を推奨している国立国際医療研究センター病院による「糖尿病標準診療マニュアル」1)に沿って、糖尿病治療について包括的に吟味してきた。

最終回は、エビデンスに“使われない”ために知っておかなければならない統計学的落とし穴について復習をしながらまとめたい。
たとえ一流医学誌に掲載された論文であっても、結果だけをうのみにせず、妥当性が低ければ話半分に論文を読むことが大切である。

【その1】
二次エンドポイントはオマケ〜朝三暮四に注意〜(第1回・第9回参照)

研究で実証できるエンドポイントは一次エンドポイントだけであり、二次エンドポイントは仮説を実証するものではなく示唆するオマケにすぎない2)3)。
実際、心不全患者におけるアンジオテンシンII受容体拮抗薬(ARB)とアンジオテンシン変換酵素阻害薬(ACEI)の腎機能(一次エンドポイント)への影響を比較したELITE研究4)では、一次エンドポイントには有意差がなかったものの、二次エンドポイントであった死亡率においてARBがACEIより低下率が大きいことが示唆された。
そこでその仮説を実証するためにELITEの二次エンドポイント(死亡率)を一次エンドポイントとしてELITE II5)研究が実施されたが、有意差は認めずARBの優位性は実証されなかった。

製薬企業がスポンサーの臨床試験では、一次エンドポイントで有意差がない場合(いわゆるネガティブスタディ)、何とか実薬の優位性をこじつけようとして二次エンドポイントの中から少しでも有意差のある部分が誇張されることが多々あるため、情報操作(spin)に気を付けたい6)7)。
特に、論文著者の中にスポンサー企業員が含まれている場合は、少しでもいいように解釈されている傾向にあるため(親の欲目バイアス)、大きく割り引いて読む必要がある。


【その2】
後付け解析は“後出しジャンケン”(第2回参照)

仮説を検証する研究では、妥当性・客観性を高めるためにバイアスを極力排除することが重要である。
解析法に関しては、研究開始前に研究デザインやデータ特性に基づいて設定しておくことが基本となる。
先にデータがあって中身が判明していると、いいとこ取りの“後出しジャンケン”と同じでフェアな解析・解釈が困難となる(情報バイアスと言う)。
後付け(post hoc)解析は情報バイアスが極めて大きいため、仮説検証ではなく仮説提唱・探求に過ぎない(日本糖尿病学会の新ガイドラインでは、RCTの後付け解析はレベル3に新たに設定された)。
特に、一次エンドポイントで有意差を認めなかった臨床試験の後付け解析による情報操作に注意すべきである8)3)。

参考として、大規模研究の後付け解析の例を紹介しよう。
<NICE-SUGAR研究>
オリジナル解析9)では、血糖の厳格な管理によりICU患者の死亡リスクが有意に増加することが示された(一次エンドポイント)。
後付け解析10)では、低血糖の増加が死亡リスク増加の原因である「可能性が示唆された」が、医学的に理に適っていても後付け解析は両者の関連性を示すだけで、因果関係までは究明できない(低血糖は真の死因ではなく基礎疾患の重篤度のマーカーに過ぎないのかもしれない)。

<ADVANCE研究>
オリジナル解析11)では、血糖の厳格な管理により細小血管症リスク(腎症の定義は顕性腎症発症・血清クレアチニン値の倍加・腎代償療法導入・腎疾患死)が有意に低下することが示された(事前に定められた一次エンドポイントのサブ解析)。
後付け解析12)では、厳格な血糖管理により末期腎不全・微量アルブミン尿・顕性アルブミン尿いずれの発症リスクも有意に低下する「可能性が示唆された」。
後付け解析では、代用エンドポイントだけではなく真の(臨床的)エンドポイントを評価しているがバイアスが大きい解析のため、仮説として大きく割り引いて読むことが重要である(オリジナル研究解析に事前に末期腎不全も入れておけば妥当性の高い結果が導けたかもしれない)。


【その3】
値引き率と値引き額は違う〜針小棒大のグラフに注意〜(第5回・第6回・第8回参照)

リスクの大きさや治療効果はリスク比(割り算)で表されることが多いが、比だけでなく差(引き算)の大きさも評価して臨床的意義を検討することが重要である。
論文ではインパクトを高めるために前者しか記載されていないことが多いため気を付けたい。
値引きに例えれば、同じ「値引き率」(比:割り算)でも「値引き額」(差:引き算)は「定価」によって違うので「定価」と「値引き額」も検討する必要がある。「値引き額」が少ないのでは臨床的意義・有用性は大きくないかもしれない。
また、グラフでは一部を引き伸ばして視覚的印象を大きくすることが少なくないので要注意だ。
最近の一流医学誌では全体図と拡大図の両者を掲載する傾向にある。


【その4】
複合エンドポイントでは各要素もチェック〜おとり商法に注意〜

関連した複数のアウトカム(心筋梗塞心不全脳卒中など)を一括して一つのエンドポイントとしてあらかじめ設定することがある。
罹患率の低い疾患で有意性を検証するのに役立つ。臨床的には理に適っているが、有意差を何とか出そうとして組み合わせた苦肉の策であるかもしれない。
複合エンドポイントの各要素の特徴や、各要素のリスク変化の一貫性にも目を通す必要がある。

特に、入院決定など判断医によって基準が大きく異なるソフトエンドポイントが含まれている場合は注意だ(脂質異常症のように検査値だけで診断するために誰が判定してもぶれのないエンドポイントをハードエンドポイントという)。
複合エンドポイント全体で有意差があった場合、各要素いずれも有意差があるかのような錯覚に陥らないように注意しよう。なお、各要素の解析は二次エンドポイントとして扱う13)が、バラつきが大きい場合には複合エンドポイントは意味をなさない14)。


【その5】
PROBE試験はネタバレによるバイアスに注意

RCTであっても、盲検されておらず介入内容が分かっていると情報バイアスのために妥当性が低下する。
盲検ではなく介入者・被験者ともに介入内容を知っているが、データ解析者には内容を知らせないことでバイアスを少しでも食い止めようという研究デザインをPROBE(Prospective、Randomized、Open、Blinded-Endpoint)試験という。
ネタバレしているため、ソフトエンドポイントの場合は判断に偏りが出たりデータの操作が可能であったりするため、妥当性は低くなる。

特に、「日本発」のRCTはPOROBE試験が多く、そのほとんどはソフトエンドポイントを使い、結果も有意差を認めるものが非常に多い。
出来が良すぎることからも察知できるように、このデザインの研究は大きく割り引いて解釈することが重要である。実際、数試験が発表後撤回されたのは記憶に新しい。


その6】
メタアナリシスは必ずしもレベルが高くない〜羊頭狗肉に注意〜(第2回・第7回・第8回参照)

2013年に改訂された日本糖尿病学会による診療ガイドラインでは、エビデンスレベルが表2に示すように5段階に簡明適正化された16)。サブ解析・コホート研究の前向きと後ろ向きの区別・横断研究などが新たに登場した。なお、未発表データを含むメタアナリシスは「レベルなし」として本文中に記載されている点も斬新である。メタアナリシスだからといってうのみにしてはいけない。

2012年に、大血管症リスク・死亡リスクに関してDPP-4阻害薬と他剤を比較したメタアナリシスが発表された17)。
18件の無作為化比較試験(RCT)を統合解析した結果、大血管症および有害心血管イベントのリスク比はそれぞれ0.40 (95%信頼区間:0.18〜0.88、p<0.02)、0.48 (0.31〜0.75、p<0.001)であり、有意なリスク低下が示された。
しかし、このメタアナリシスは未発表データ5件を含むため、メタアナリシスと言えども妥当性は極めて低く読む価値はほとんどない(エビデンスレベルなし)。

しかもこの研究は、追跡期間が最長2年間であり、臨床的意義も疑問である。
数値は臨床的枠組みの中で初めて意味を持つことを肝に銘じたい。


【その7】
エンドポイントの改変・改ざん〜水増し注意報〜

2005年、International Committee of Medical Journal Editorsは、臨床試験の論文発表には事前登録をするよう義務付けた。
しかし、現状を監査した研究18)によると、研究計画が登録されていた323件のRCTのうち、適切な登録(試験終了前に登録、一次エンドポイント明記)が行われていたのは147件であった。
その中で、46件に登録時と発表時でエンドポイントの相違を認めた。さらに23件でエンドポイント改変による検定結果への影響が判定できたが、23件中19件で改変後に有意差が出ていた。

主要医学誌掲載論文でさえ適切な登録率が低い事実が判明し、さらにエンドポイント中途改変も少なくない事実も鑑みると、高エビデンスレベルとされるRCTでさえ盲信するのは危険なことがよく分かる。
エンドポイントは標準療法の変化や有害事象の出現などによって改変を余儀なくされることもあるが、本来は研究開始後に都合いいように改変することは反則である。
特に、ソフトエンドポイントを研究開始後に追加する19)のはイベント数稼ぎのための水増しの疑いが生じる。


【その8】
一票の格差を付けて観察研究を擬似RCT化〜Propensity score matching〜(第6回・第8回参照)

実臨床では、禁忌や慎重適応の条件に該当する患者には、当然のことながらその治療はあまり行われない。
そのため治療薬の比較を観察研究に基づいて行う場合は、処方適応患者層が異なるため、単純に年齢などを計算で調整すれば済むというものではない。
このような「処方バイアス」(confounding by indication)を解消する策の一つが「propensity score matching」である.

まず、アウトカムに関わらず全員のデータを集積し、年齢・性別・肝機能などのファクターを基に各治療の処方されやすさを計算する。
次に、その処方されやすさ度の低い人ほどデータに重みを付けて2群間の比較解析を行う。
このように一票の格差をつけることで多数派・少数派のデータも両群均等に加味されるようになり、擬似RCT化が可能になる。もちろん本物のRCTではないため、エビデンスレベルはRCTには劣る。

※編集部注:本コラムは今号が最終回です。長い間、ご愛読ありがとうございました。なお、能登洋先生は、2014年9月より聖路加国際病院内分泌代謝科にご勤務の予定です。

<参考図書>
・糖尿病診療【秘伝】ポケットガイド(増補版).能登洋.南江堂.2013.
・臨床統計はじめの一歩Q&A.能登洋.羊土社.2008.
・2週間でマスターするエビデンスの読み方使い方のキホン すぐにできるEBM実践法.能登洋.南江堂.2013.
・Dr.能登のもう迷わない!臨床統 計ここが知りたい!!(上・下巻) .能登洋.ケアネットDVD.2010.
・日常診療にすぐに使える臨床統計学Q&A(改訂版).能登洋.羊土社.2011.
・やさしいエビデンスの読み方・使い方.能登洋.南江堂.2010.
EBMの正しい理解と実践 Q&A.能登洋.羊土社.2003.

<参考文献>
1)国立国際医療研究センター病院.糖尿病標準診療マニュアル(一般診療所・クリニック向け)(2014年4月1日改訂)
2)Freemantle N. How well does the evidence on pioglitazone back up researchers' claims for a reduction in macrovascular events? Bmj 2005;331:836-8.
3)山崎力. 医学統計ライブスタイル. サイカス 2008.
4)Pitt B, Segal R, Martinez FA, et al. Randomised trial of losartan versus captopril in patients over 65 with heart failure (Evaluation of Losartan in the Elderly Study, ELITE). Lancet 1997;349:747-52.
5)Pitt B, Poole-Wilson PA, Segal R, et al. Effect of losartan compared with captopril on mortality in patients with symptomatic heart failure: randomised trial--the Losartan Heart Failure Survival Study ELITE II. Lancet 2000;355:1582-7.
6)Sun X, Briel M, Busse JW, et al. The influence of study characteristics on reporting of subgroup analyses in randomised controlled trials: systematic review. BMJ 2011;342:d1569.
7)桑島巌. 大規模試験とその報道のあり方. 週刊医学界新聞 2722号 (2007年).
8)Boutron I, Dutton S, Ravaud P, et al. Reporting and interpretation of randomized controlled trials with statistically nonsignificant results for primary outcomes. JAMA : the journal of the American Medical Association 2010;303:2058-64.
9)Finfer S, Chittock DR, Su SY, et al. Intensive versus conventional glucose control in critically ill patients. The New England journal of medicine 2009;360:1283-97.
10)Finfer S, Liu B, Chittock DR, et al. Hypoglycemia and risk of death in critically ill patients. The New England journal of medicine 2012;367:1108-18.
11)Patel A, MacMahon S, Chalmers J, et al. Intensive blood glucose control and vascular outcomes in patients with type 2 diabetes. The New England journal of medicine 2008;358:2560-72.
12)Perkovic V, Heerspink HL, Chalmers J, et al. Intensive glucose control improves kidney outcomes in patients with type 2 diabetes. Kidney Int 2013;83:517-23.
13)Freemantle N, Calvert M, Wood J, et al. Composite outcomes in randomized trials: greater precision but with greater uncertainty? JAMA 2003;289:2554-9.
14)Montori VM, Permanyer-Miralda G, Ferreira-Gonzalez I, et al. Validity of composite end points in clinical trials. BMJ 2005;330:594-6.
15)Kohro T, Yamazaki T. Cardiovascular clinical trials in Japan and controversies regarding prospective randomized open-label blinded end-point design. Hypertens Res 2009;32:109-14.
16)日本糖尿病学会. 科学的根拠に基づく糖尿病診療ガイドライン2013. 南江堂. 2013.
17)Patil HR, Al Badarin FJ, Al Shami HA, et al. Meta-analysis of effect of dipeptidyl peptidase-4 inhibitors on cardiovascular risk in type 2 diabetes mellitus. Am J Cardiol 2012;110:826-33.
18)Mathieu S, Boutron I, Moher D, et al. Comparison of registered and published primary outcomes in randomized controlled trials. JAMA 2009;302:977-84.
19)国立国際医療研究センター研究所糖尿病情報センター

2014年08月24日