Falsches Spiel

04.02.2011 07:30 Uhr Nike Heinen

Weltweit arbeiten Medizinstatistiker daran, in den Unterlagen von klinischen Studien Scheinargumente von soliden Beweisen zu trennen. Ihre Ergebnisse haben dabei eine Schummelkultur großen Stils zutage gefördert.

Eigentlich sollte dies eine saftige Geschichte über trockene Zahlen werden, die zum 20. Geburtstag der evidenzbasierten Medizin (EBM) erklärt, wie sich mit statistischen Methoden Menschenleben retten lassen: Bei dieser medizinischen Schule prüft ein Heer von Fachleuten Veröffentlichungen auf Herz und Nieren und ermittelt, welche Medikamente und Therapien wirklich helfen – weil ihre Wirkung durch aussagekräftige und belastbare Daten untermauert werden kann – und welche nicht. Wir wollten dabei auch über die wachsende Kritik berichten, mit der Experten die Grenzen dieser evidenzbasierten Medizin aufzeigen. Doch dann erzählten die Arbeiten der Evidenzmediziner eine ganz andere saftige Geschichte.

Es geht um Lug und Trug und um wissenschaftliche Wahrheiten, die vielleicht gar keine sind, weil ihre Objektivität nur vorgetäuscht wird. Neu ist daran nicht, dass die Ergebnisse von medizinischen Studien manipuliert werden können und werden, indem Forscher schlechte Studienergebnisse besser aussehen lassen. Neu ist das Ausmaß, in dem das offenbar geschieht.

Die evidenzbasierte Medizin war vor 20 Jahren angetreten, in der Flut von medizinischen Veröffentlichungen die Spreu vom Weizen zu trennen. Gordon Guyatt, Epidemiologe an der kanadischen McMasters University, richtete einen Kurs für junge Ärzte ein, damit sie lernten, wissenschaftliche Studien einzuschätzen. Er wollte zudem dem Problem abhelfen, dass auch bereits praktizierende Mediziner völlig abgekoppelt von aktuellen wissenschaftlichen Erkenntnissen agierten.

Doch inzwischen verzweifeln EBM-Spezialisten, denn eine saubere Bewertung der Wirksamkeit ist aufgrund der Datenlage oft gar nicht möglich. Die erste umfassende Übersicht mit Fallbeispielen für die verbreitete Praxis, unangenehme Studiendaten selektiv zu verschweigen, haben die Arzneimittelprüfer des Kölner Institutes für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG) im Oktober 2010 veröffentlicht.

Betroffen ist nahezu jedes Fachgebiet: Die Experten listen 50 Behandlungen von 40 verschiedenen Krankheiten auf, unter anderem Medikamente gegen Depressionen, Psychosen, Schmerzen, Alzheimer, Migräne, Herzrhythmusstörungen, Inkontinenz, Diabetes, Arthritis, HIV und Krebs. "Vergleicht man die unpublizierten mit den publizierten Daten, so zeigen sich große Ergebnisunterschiede. Die publizierten Studien neigen dazu, die Wirksamkeit zu über- und die Nebenwirkungen zu unterschätzen", resümieren die Prüfer. Rechnet man dazu noch die Ergebnisse von Stichproben hoch, dann müsse man annehmen, dass 50 bis 90 Prozent der heute als erprobt geltenden ärztlichen Interventionen mit großen Fragezeichen hinsichtlich Wirksamkeit und Nebenwirkungen versehen werden müssen.

Ein Indiz dafür findet sich zum Beispiel in einem aktuellen Sitzungsprotokoll des Gemeinsamen Bundesausschusses (G-BA) – der Selbstverwaltung von Kassenärzten und Kassenvertretern – vom 16. September 2010: "Reboxetin: Verordnungsausschluss" ist darin vermerkt. Das bedeutet, dass dieser Wirkstoff, ein Antidepressivum aus dem Labor des Pharmariesen Pfizer, in Deutschland von der Liste der ordentlichen Kassenmedikamente verschwinden muss.

Dabei war der Stimmungsmacher ein Klassiker, der bereits seit 13 Jahren unter dem Apothekennamen Edronax von Psychiatern verschrieben wurde, zigtausendfach und in dem festen Glauben, dass ihren Patienten damit sowohl gezielt als auch ohne größere Nebenwirkungen geholfen werden kann. Beide Annahmen scheinen nun hinfällig: Die IQWiG-Experten hatten die vorliegenden Reboxetin-Studien auf Geheiß des G-BA einer gründlichen Revision unterzogen. Ihr Fazit: Das Mittel wirkt nicht besser als ein Placebo, dafür hat es mehr Nebenwirkungen. Der Skandal dabei: Man hätte diesen Schluss schon viel früher ziehen können, wenn Pfizer die Studien, die es vor und nach der Zulassung zwischen 1996 und 2003 durchgeführt hatte, vollständig öffentlich zugänglich gemacht hätte.

"Drei Viertel aller primären Versuchsergebnisse, also die nackten, uninterpretierten Zahlen von über 3500 der insgesamt 5000 Probanden, waren bis zum Sommer 2009 nicht oder nicht verwertbar publiziert", sagt Thomas Kaiser, Leiter der Abteilung Arzneimittelbewertung beim IQWiG. Alles, was die wissenschaftliche Gemeinde von diesen Arbeiten in einschlägigen Fachzeitschriften nachlesen konnte, waren vom Hersteller in Auftrag gegebene Auswertungen und Interpretationen dieses Datenmaterials, und die Datensets waren häufig unvollständig.

Doch Kaiser und seine Kollegen brauchten die vollständigen Studienberichte, um sie nachzuprüfen und im Auftrag des Bundesausschusses den Nutzen von Reboxetin unabhängig bewerten zu können. "Erst als wir im Juni 2009 publik machten, dass wir Reboxetin nicht einschätzen können, weil das Gros der Daten unter Verschluss gehalten wird, entschloss sich Pfizer zur Kooperation." Die Analyse der neu hinzugekommenen zehn Studien ergab, dass offenbar genau diejenigen Untersuchungen zurückgehalten worden waren, in denen Reboxetin versagte oder viele Patienten die Therapie wegen schwerer Nebenwirkungen wie Impotenz oder Schlafstörungen vorzeitig abbrachen.

Im Lichte dieser Ergebnisse fiel das Fazit der IQWiG-Fachleute natürlich viel negativer aus als in der Lesart von Pfizer. Welche Daten von Unternehmensseite publiziert sind und mit welchem Ergebnis, das kann man zum Beispiel in der medizinischen Datenbank Pubmed nachlesen. Und danach hat Kaiser recht: Die günstigen Reboxetin-Studien liegen vollständig inklusive Rohdaten vor, die ungünstigen nur in aufbereiteter Form.

Konfrontiert mit dem Vorwurf, Teile der Rohdaten zurückgehalten zu haben, dementiert Unternehmenssprecherin Christiane Fleiter zunächst: "Generell gilt, dass Pfizer über die Ergebnisse klinischer Studien objektiv, wahrheitsgemäß, ausgewogen und vollständig berichtet, und zwar unabhängig von den konkreten Ergebnissen der jeweiligen Studie", schreibt sie – und zündet dann eine Nebelkerze. "Sie beziehen sich auf einen Artikel [des IQWiG, Anm. d. Red.] im ,British Medical Journal' vom 13. Oktober 2010. Alle im BMJ-Artikel referenzierten Studien ab 2006 sind veröffentlicht und auf der Webseite www.clinicaltrials.gov zugänglich. Die Informationen zu sämtlichen Studien sind in Peer-Reviewed-Journals zu finden" – also in Fachzeitschriften, die eingereichte Manuskripte von Spezialisten begutachten lassen.

Der Einschub "ab 2006" fällt dabei kaum auf, ist allerdings wesentlich, um Fleiters Aussage nicht zur Lüge werden zu lassen. Denn die strittigen Untersuchungen, um die es ging, wur-den alle davor vorgenommen, und sie sind eben nicht auf der genannten Webseite zu finden. Sie wurden zwar tatsächlich in Peer-Reviewed-Journals veröffentlicht, nur eben mehr im Sinne des Unternehmens als von unabhängigen Prüfern interpretiert. Der zweite feine Unterschied ist ebenfalls ein präzise abgewogenes Gerade-nicht-Lügen: Es finden sich tatsächlich "Informationen zu sämtlichen Studien" öffentlich, nur nicht "alle Informationen aller Studien", wie es für eine solide wissenschaftliche Überprüfung nötig wäre.

Diese Gepflogenheit, Informationen durch Verschweigen zu beeinflussen, wie in diesem Interview, oder undurchsichtig darzustellen, bezeichnet man in der Wissenschaft als "biased reporting". Wenn Kaisers Vorwurf stimmt, dass Pfizer mutwillig ungünstige Zahlen zurückgehalten und nur günstige veröffentlicht hat – es wäre bei Weitem kein Einzelfall. Ebenfalls 2009 wurde bekannt, dass das Unternehmen Roche einem Gutachterteam der Cochrane Collaboration Zugang zu Daten des Grippemittels Tamiflu verweigert hatte. Die Cochrane Collaboration ist ein internationales Netzwerk von Wissenschaftlern, das die medizinische Beweislage zu einer bestimmten Behandlung systematisch sichtet und wie das IQWiG unabhängig begutachtet.

Die Wissenschaftler um den britischen Epidemiologen Tom Jefferson wollten die vollständigen Studienberichte samt Daten zu zehn Studien sehen, in denen untersucht worden war, ob Tamiflu tatsächlich die Komplikationsrate bei Grippeinfizierten senkt. Es sind diese Komplikationen, vor allem bakterielle Lungenentzündungen, die Grippepatienten sterben lassen – und es war der günstige Eindruck dieser Studien, der viele Staaten veranlasst hatte, millionenweise Vorräte dieses Medikaments für den Fall einer Grippe-Pandemie zu ordern.

Auch Jefferson machte den Datenmangel öffentlich. Roche versprach daraufhin, die fehlenden zwei Drittel an unveröffentlichten Studienberichten auf einer passwortgeschützten Seite zur Verfügung zu stellen, hinterlegte davon jedoch nur ein Viertel. Die Herausgabe weiterer Daten machte das Unternehmen vom Einblick in das Prüfprotokoll der Cochrane-Gutachter abhängig. "Was soll das für eine Transparenz sein, wenn nicht die Gutachter entscheiden, was sie brauchen, sondern die Begutachteten", kritisiert Jefferson. Auf Nachfrage von Technology Review ließ Roche mitteilen, dass es alle Daten zur Verfügung gestellt habe, die nötig sind, um die Fragen der Cochrane-Reviewer zu beantworten.

"In den USA kann es passieren, dass Gerichte für verzögerte Publikationen den Unternehmen 10000 Dollar Strafe für jeden weiteren Tag aufbrummen, den sie verstreichen lassen. Wenn man mit dem Medikament aber im gleichen Zeitraum das Hundertfache an Gewinn macht, muss man fragen, ob die Strafe wirklich abschreckt", sagt IQWiG-Experte Kaiser. Roche verdiente im vergangenen Jahr etwa 1,5 Milliarden Euro mit Tamiflu. Mittlerweile kapitulieren viele Gutachter vor dem Datenmangel, sogar die Cochrane Collaboration. Eine in diesem Februar im "British Medical Journal" publizierte Erhebung fand bei jedem zweiten von 283 untersuchten Übersichtsartikeln (Reviews) Lücken im Primärdatensatz. Im Schnitt fehlten zehn Prozent der Daten der Studienprotokolle, bei jeder vierten Arbeit sogar die Hälfte.

In der EU gibt es zwar seit 2004 eine Registrierungspflicht für alle klinischen Studien in der sogenannten EudraCT-Datenbank, Zugang zu ihr haben allerdings nur Zulassungsbehörden. Immerhin müssen seit einem Ultimatum der Fachzeitschriften-Verleger zum 13. September 2005 alle Tierversuchsstudien und klinischen Studien mit Menschen in einem öffentlich zugänglichen Register wie www.clinicaltrials.gov angemeldet sein, wenn ihre Ergebnisse später in einem renommierten Blatt veröffentlicht werden sollen. Und in den USA besteht zumindest für diejenigen Arzneimittel-Studien, die nach 2007 beendet wurden, die Pflicht, ihre Ergebnisse zu veröffentlichen. Je nach Fachgebiet und Geldgeber verschwinden trotzdem bis zu 96 Prozent der Studien zu einer Therapie nach ihrem Ende erst einmal in Schubladen, vermutlich weil sie ungünstige Ergebnisse liefern.

Die Probe aufs Exempel machten 2008 Krebsforscher aus Seattle für die Fachzeitschrift "Oncologist". Sie verfolgten bei 2028 auf www.clinicaltrials.gov angemeldeten Studien über Krebsbehandlungen, welche später tatsächlich ausgewertet in Fachzeitschriften wieder auftauchten. Die klamme Ausbeute der Zählung: Nur 17,6 Prozent aller geprüften Studien und sogar nur 5,9 Prozent derer, die Pharmaunternehmen durchgeführt hatten, erreichten die wissenschaftliche Gemeinde. Als Vergleich: Bei Studienergebnissen öffentlicher Netzwerke sind es zwar immerhin 59 Prozent, doch selbst das gilt unter Experten immer noch als zu wenig, um eine medizinische Methode zuverlässig einschätzen zu können.

Um das zu beurteilen, bedienen sich die Gutachter eines Verfahrens, das erst durch die evidenzbasierte Medizin allgemeine Verbreitung fand – das systematische Review. Bei dieser Meta-analyse werden alle verfügbaren Studienergebnisse, etwa zu einem bestimmten Medikament, zunächst in einen großen Zahlentopf geworfen. Je genauer die einzelnen Studien statistisch gesehen ausfallen, desto stärker wird ihr Einfluss auf das spätere Endergebnis gewichtet – je ungenauer sie sind, desto weniger fallen sie ins Gewicht. Wie nahe das Endergebnis der wissenschaftlichen Wahrheit kommt, hängt entscheidend davon ab, ob die Streuung der Daten im Topf genauso ist wie die, die Mutter Natur zusammen mit Vater Zufall erzeugen würde. Werden Ergebnisse nur dann veröffentlicht, wenn sie ein Medikament gut dastehen lassen, dann ist der Gesamteindruck der Studienlage falsch – nämlich viel besser als die Wirklichkeit.

Wie stellt man aber fest, ob eine solche Schieflage besteht? Matthias Egger, Professor für Sozialmedizin an der Universität Bern, hat bereits 1997 im "British Medical Journal" einen einfachen grafischen Test vorgestellt, mit dem die Autoren von Metaanalysen feststellen können, wie tendenziös das ihnen vorliegende Studienmaterial ist. Bei diesem "Trichterdiagramm" trägt man das zu untersuchende Ergebnis – etwa die Sterberate nach der Behandlung in jeder Studie – auf der x-Achse auf und die zugehörige Probandenzahl auf der y-Achse.

Bei einer sauberen Datenlage formen die Einzelwerte ein gleichschenkliges Dreieck, bei dem die wissenschaftliche Wahrheit der Symmetrielinie durch die Dreiecksspitze entspricht: Studien mit vielen Probanden streuen weniger um den Mittelwert, deswegen ist das Dreieck oben schmaler. Eggers überprüfte 38 Cochrane-Auswertungen von Einzelstudien und 37 Meta-analysen aus renommierten Fachzeitschriften. Das Ergebnis: Immerhin 14 Prozent der Cochrane-Tests und 38 Prozent der Journal-Analysen hatten sich auf tendenziöse Daten verlassen.

Auch Ben Goldacre, Arzt und als Kolumnist bei der britischen Tageszeitung "The Guardian", hat sich der Enttarnung von schlechter Wissenschaft verschrieben. Seine Erfahrungen hat er gerade in dem Buch "Die Wissenschaftslüge" veröffentlicht. Darin ist auch eine beachtliche Liste von gängigen Fälschertricks zu finden, die – abgesehen von der üblichen Praxis, nur die Ergebnisse zu publizieren, die die eigene Position stärken – auch noch die publizierten Ergebnisse selbst verfälschen.

Ein typisches Beispiel sei etwa die Vorauswahl von Probanden, die je nach Gesundheitszustand oder genetischen Variationen positiver auf einen bestimmten Wirkstoff reagieren dürften. Oder es werden Nebenwirkungen "übersehen", weil man sie nicht penibel genug abfragt; erst statistische Korrelationen gesucht und dann die Fragestellung des Versuchs daran angepasst; und bei Vergleichsstudien mit Konkurrenzwirkstoffen eine gute Dosierung für das eigene und schlechte Dosierungen für Alternativpräparate gewählt. Wie absurd das sein kann, zeigt Goldacres Auswertung von Vergleichsstudien verschiedener Schmerzmittel: "Wenn Ibuprofen besser ist als Diclofenac, dann kann nicht gleichzeitig Diclofenac besser sein als Ibuprofen."

Ein beliebter Trick bei Studien zu Vorsorgeuntersuchungen ist es, statt der Sterberate die Überlebensrate etwa nach fünf Jahren festzuhalten. Weil bei Vorsorge-Screenings auch schon sehr frühe Krebsformen gefunden werden, die erst Jahre später Beschwerden verursacht hätten, fallen Fünf- oder Zehn-Jahres-Überlebensraten bei diesen Patienten natürlich eklatant besser aus als bei jenen, die erst viel später zum Arzt gehen. Auch dann, wenn die Getesteten trotz Früherkennung genauso sicher an der bösartigen Veränderung sterben.

Etwas komplizierter ist das sogenannte Rosinenpicken – oder in Statistikersprache die "Veränderung des Studienendpunktes": Jeder klinischen Studie geht die Formulierung eines Ereignisses voraus, das anschließend bei den Probanden gezählt wird, um die Wirkung des Medikamentes zu prüfen: Das kann etwa bei einem Medikament gegen Krebs im Endstadium die Zahl der Patienten sein, die drei Monate nach der Behandlung noch leben. Rosinenpicker formulieren diese Fragestellung einfach im Nachhinein passend zu den Ergebnissen um – etwa in "nach einem Monat", falls sich während des Versuchs herausstellt, dass nach dem ursprünglichen, längeren Zeitraum schon so viele Patienten gestorben sind, dass das ein reichlich düsteres Bild des Medikaments zeichnet. Das kann sogar dazu führen, dass eine Wirkung bewiesen wird, die gar nicht vorhanden ist.

Ein Beispiel dafür ist der antiepileptische Wirkstoff Gabapentin der Pharmaunternehmen Pfizer und Parke-Davis. Als die beiden 2003 in den USA wegen gesetzeswidriger Förderung von sogenannten Off-Label-Verschreibungen verklagt wurden, kamen zuvor nicht veröffentlichte Studiendokumente zum Vorschein, die im Vergleich mit freiwillig publizierten Ergebnissen das Rosinenpicken belegten. In acht der zwölf Publikationen war der primäre Endpunkt verändert worden. Pfizer wies die Vorwürfe zurück.

"Nimmt man all die Indizien zusammen, die wir heute haben, um das Ausmaß der Verfälschung abzuschätzen, dann liegt der Schluss nahe, dass die Ärzte ihre Patienten im Blindflug behandeln", sagt Gerd Antes, Professor für Biometrie in Freiburg und Leiter des deutschen Arms der Cochrane Collaboration. Dieses harte Urteil trifft er trotz der strengen Bedingungen, an die sich er und seine Mitarbeiter bei den Metaanalysen halten: Sie verwenden grundsätzlich nur primäre, noch nicht interpretierte Studienergebnisse und testen die Studiendaten zudem mathematisch auf Verzerrungen, bevor sie über Nutzen und Schaden einer neuen Behandlungsmethode urteilen. Trotzdem kann keiner unter den heutigen Bedingungen mit letzter Sicherheit sagen, welche Beweise echt und welche manipuliert sind.

Gerade die verzögerte Bekanntmachung von negativen Daten wie zum Beispiel im Fall von Reboxetin gefährde Menschenleben. "Stellen Sie sich vor", verdeutlicht Antes die Folgen, "den Probanden einer Studie wird gesagt, dass bisher keine gefährlichen Nebenwirkungen bekannt sind. Und dabei wurden solche unerwünschten Wirkungen längst gemessen, nur eben nicht publiziert."

Wie aber ließe sich diese riskante Schummelkultur verändern? Eine Pflicht zur vollständigen und öffentlichen Publikation wird wahrscheinlich auf absehbare Zeit keine politische Mehrheit finden. Gerd Gigerenzer, Direktor des Berliner Max-Planck-Instituts für Bildungsforschung, glaubt deshalb, dass Patienten und Ärzte gefragt sind, dieses System ins Wanken zu bringen. "Die plumpesten Tricksereien fallen nur deswegen auf fruchtbaren Boden, weil die meisten von uns im Tal der statistisch Ahnungslosen leben." Gigerenzer hat wissenschaftliche Veröffentlichungen, Informationsbroschüren, Presseartikel und Webseiten darauf untersucht, wie sie klinische Studien präsentieren.

Ein häufig angewandter Kniff ist dieser Zahlentrick: Die Ergebnisse werden in absoluten Zahlen oder in Prozent ausgedrückt, je nachdem, welche Darstellung die gewünschte Aussage besser unterstützt. "Sogar Ärzte tappen in diese Falle", sagt der Wissenschaftler. Er rät Medizinern dringend, ihre Statistikkenntnisse auszubauen. Für Patienten hat er einen Leitfaden [1] entwickelt, der sie in leicht verständlicher Weise mit den wichtigsten Fragen rund ums Risiko vertraut macht. "Hat man das erst einmal durchschaut, ist es so einfach, falsche Versprechungen der Medizin zu durchschauen, wie zu überprüfen, ob die Anlagen, die Ihre Bank empfiehlt, wirklich so gut sind, wie sie aussehen." (bsc [2])

URL dieses Artikels:
https://www.heise.de/-1181997

Links in diesem Artikel:
[1] https://www.heise.de/hintergrund/Die-richtigen-Fragen-wie-Patienten-gute-von-schlechten-Therapien-unterscheiden-koennen-1183738.html
[2] mailto:bsc@heise.de