Wahrscheinlich falsch

Ein zentraler statistischer Kennwert für wissenschaftliche Studien kommt unter Beschuss. Er kann über Leben und Tod entscheiden.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 3 Min.

Ein zentraler statistischer Kennwert für wissenschaftliche Studien kommt unter Beschuss. Er kann über Leben und Tod entscheiden.

Dem p-Wert, einer tragenden Säule vieler wissenschaftlicher Veröffentlichungen, geht es an den Kragen. Der Wert wird gerne als Schiedsrichter herangezogen, um Hypothesen zu bestätigen oder zu verwerfen. Liegt er unter 0,05, schreibt der Forscher in seinem Paper befriedigt von einem „signifikanten“ Ergebnis. Unterschreitet die Kennzahl gar die Schwelle von 0,01, darf sich der Wissenschaftler „hochsignifikanter“ Zusammenhänge rühmen.

Schon lange monieren Statistiker, dass der p-Wert für solch weitreichende Folgerungen gar nicht geeignet sei. Die Fallstricke reichen von Fehlinterpretationen bis hin zu bewussten Fälschungen. Für letztere hat sich sogar ein eigener Begriff gebildet: „p-Hacking“, also der Versuch, solange an Datensätzen herum zu zwicken und zu zwacken, bis sie endlich unter die 0,05-Schwelle fallen. Die Folge: Immer mehr Studien lassen sich nicht reproduzieren.

Nun hat die American Statistical Association sechs neue Empfehlungen für den Umgang mit p-Werten veröffentlicht. Sie zielen vor allem darauf ab, sich nicht allein auf p-Werte zu verlassen, wenn es um wirklich wichtige Entscheidungen geht. Und bei medizinischen Studien über Wirksamkeit und Nebenwirkungen eines neuen Medikaments kann ein p-Wert tatsächlich über Leben und Tod entscheiden.

Der p-Wert gibt Auskunft darüber, wie wahrscheinlich ein bestimmtes Ergebnis ist, wenn die Null-Hypothese wahr ist. Nehmen wir als Beispiel eine Studie, die feststellen soll, ob ein neuer Wirkstoff gegen Bluthochdruck tatsächlich pharmakologisch wirksam ist. Es gibt, wie es sich gehört, zwei zufällig eingeteilte Patientengruppen. Die eine bekommt den Wirkstoff, die andere ein Placebo. Die Nullhypothese lautet: Der Blutdruck der Patienten in beiden Gruppen unterscheidet sich nicht stärker, als es durch zufällige Streuung zu erwarten gewesen wäre. Ein p-Wert von 0,05 bedeutet in diesem Zusammenhang: Die Wahrscheinlichkeit, dass die gemessene Blutdrucksenkung zufällig zustande gekommen ist, beträgt fünf Prozent. Das Medikament ist also wahrscheinlich wirksam – zumindest, wenn der Experimentator sorgfältig jede andere Erklärung für unterschiedliche Messergebnisse zwischen den Gruppen ausgeschlossen hat. Denn wenn die Nullhypothese falsch ist, muss die Alternativhypothese noch lange nicht richtig sein. Vielleicht gibt es ja verborgene Einflüsse, die der Forscher übersehen hat.

Ab fünf Prozent von „signifikant“ (beziehungsweise ab einem Prozent von „hochsignifikant“) zu sprechen und damit eine Hypothese für bewiesen zu halten ist allerdings eine völlig willkürliche Entscheidung. Die Irrtumswahrscheinlichkeit selbst ist ein Kontinuum und verschwindet nicht einfach irgendwann. Das bedeutet auch: Von 100 Studien, die eine signifikante Wirkung eines Medikaments nachgewiesen haben wollen, sind 5 wahrscheinlich falsch. Das finde ich eine ganze Menge. Oder würden Sie in einen Flieger steigen, der mit fünfprozentiger Wahrscheinlichkeit abstürzt? (grh)