Hirnforschung: Fehlerhafte MRT-Software schürt Zweifel an Zehntausenden Studien

Hirnforscher greifen für die Auswertung von Magnetresonanztomographen auf Software zurück, die viel zu hohe Fehlerraten hat. Das haben Forscher jetzt ermittelt und entkräften damit möglicherweise rund 40.000 Studien.

In Pocket speichern vorlesen Druckansicht 171 Kommentare lesen
Fehlerhafte Software könnte Jahrzehnte an Hirnforschung

fMRI-Aufnahmen

Lesezeit: 3 Min.

Die am häufigsten genutzte Software zur Auswertung von funktioneller Magnetresonanztomographie (fMRI) weist offenbar viel zu hohe Fehlerraten auf, was Jahrzehnte an Hirnforschung entwerten könnte. Zu diesem Ergebnis kommt jedenfalls eine Gruppe von Forschern um den Schweden Anders Eklund, wie dessen Universität von Linköping zusammenfasst. Sie überprüften die Analysemethoden der meistgenutzten Software-Pakete für die fMRI-Analyse (SPM, FSL, AFNI) und fanden Raten von sogenannten False Positives – also Hirnaktivität, wo gar keine war – die teilweise 70 Prozent erreichten. Akzeptabel und theoretisch zu erwarten seien jedoch lediglich 5 Prozent.

Bei der funktionellen Magnetresonanztomographie werden Durchblutungsprozesse im Gehirn quasi live gefilmt, ohne dass dafür störend in den Körper eingegriffen werden muss, erklärt Spektrum der Wissenschaft. Weil sauerstoffreiches Blut andere magnetische Eigenschaften hat als sauerstoffarmes, kann durch starke Magnetfelder die Sauerstoffsättigung in unterschiedlichen Bereichen des Gehirns mit großer Auflösung sichtbar gemacht werden. Hirnforscher hatten diese Technik jahrelang als Segen verstanden und unzählige Untersuchungen dazu unternommen, welche Hirnareale bei bestimmten Tätigkeiten aktiv sind und daraus die unterschiedlichsten Schlüsse gezogen.

Wie die Wissenschaftler um Eklund nun erläutern, werden bei der fMRI-Forschung beispielsweise die 3D-Aufnahmen von 20 gesunden Probanden mit denen von 20 kranken verglichen, also beispielsweise Patienten mit Hirnverletzungen oder bestimmten Schädigungen. Die dabei gefundenen Unterschiede werden ausgewertet und Forschungsgrundlage. Eklund und seine Kollegen verglichen nun aber stattdessen die Aufnahmen des Ruhezustands von 20 gesunden Probanden mit denen von anderen 20, ebenfalls Gesunden. Die Software sollte dabei eigentlich keine statistisch signifikanten Unterschiede finden (also weniger als 5 Prozent), stattdessen seien aber 60 bis 70 Prozent herausgekommen.

Grund für die Fehler sind den Wissenschaftlern zufolge jene Algorithmen, die aus den einzelnen gemessenen Bildpunkten im dreidimensionalen Raum größere Cluster bildet. Werden zwischen solchen Clustern auf zwei Aufnahmen Unterschiede erkannt, heben sie Cluster hervor. An der Zuverlässigkeit und der Reproduzierkarbeit dieses Verfahrens hatte es schon vorher Kritik gegeben. So hatte Spektrum der Wissenschaft das Vorgehen einiger Forscher mit dem eines Revolverhelden verglichen, der wahllos auf ein Scheunentor schießt und danach Zielscheiben um die Einschlusslöcher malt, die am nächsten beieinander liegen. Andere Forscher hätten mit den etablierten Methoden auch schon Hirnaktivität bei einem toten Lachs festgestellt.

Eklunds Ergebnisse mit der mathematisch untermauerten Kritik wurden nun in der Wissenschaftspublikation Proceedings of the National Academy of Sciences (PNAS) veröffentlicht. Es sei möglich, dass ungefähr 40.000 Studien davon betroffen sind, erklärt der Forscher. Einige seien vor mehr als zehn Jahren durchgeführt worden und es sei nicht einmal klar, ob das dafür verwendete Datenmaterial noch existiere. Er selbst schlägt jedenfalls vor, die Software zur Auswertung auf weniger Hypothesen zu begründen und dafür mehr Rechenzeit zu veranschlagen. Dank moderner Grafikkarten könne die dafür benötigte Zeit inzwischen auf akzeptable Maße gesenkt werden. (mho)