Warum KI-Werkzeuge gegen COVID-19 bislang versagt haben

Hunderte neuartiger Programme werden mittlerweile im internationalen Gesundheitswesen erprobt. Die Wirkung ist gleich null – oder sogar gefährlich.

In Pocket speichern vorlesen Druckansicht 72 Kommentare lesen

(Bild: triocean/Shutterstock.com)

Lesezeit: 11 Min.
Von
  • Will Douglas Heaven
Inhaltsverzeichnis

Als das Coronavirus im März 2020 über Europa hereinbrach, sahen sich die Krankenhäuser mit einer Gesundheitskrise konfrontiert, die noch niemand richtig verstanden hatte. "Die Ärzte hatten keine Ahnung, wie sie mit diesen Patienten umgehen sollten", erzählt Laure Wynants, Epidemiologin an der Universität Maastricht in den Niederlanden, die sich mit Vorhersagewerkzeugen im Gesundheitswesen beschäftigt.

Es gab allerdings Daten aus China, das einen viermonatigen Vorsprung bei der Bekämpfung der Pandemie hatte. Wenn nun Algorithmen des maschinellen Lernens auf diese Daten trainiert werden könnten, um Ärzten zu helfen, zu verstehen, was sie da sahen – und dann korrekte Entscheidungen zu treffen, wäre dies womöglich ein Lebensretter, dachte man. "Ich meinte: Wenn es einen Zeitpunkt gibt, an dem KI ihre Nützlichkeit unter Beweis stellen kann, dann ist es jetzt", so Wynants. "Ich habe mir große Hoffnungen gemacht."

Doch dazu ist es nie gekommen – aber nicht, weil man sich nicht bemüht hätte. Forschungsteams auf der ganzen Welt machten sich auf den Weg, um den überarbeiteten Medizinern zu helfen. Die KI-Community entwickelte erstaunlich rasch neue Software, von der viele glaubten, dass sie Krankenhäusern eine schnellere Diagnose oder zumindest eine korrekte Unterteilung von Patienten (Triage) ermöglichen würde – und so die dringend benötigte Unterstützung an die Corona-Front brächte. Doch es blieb graue Theorie. Letztendlich wurden Hunderte von Prognosetools entwickelt. Keines von ihnen hat wirklich etwas bewirkt – und einige waren möglicherweise sogar schädlich.

Das ist die vernichtende Schlussfolgerung mehrerer Studien, die in den letzten Monaten veröffentlicht wurden. Im Juni veröffentlichte das Turing Institute, das nationale Zentrum für Data Science und KI im Vereinigten Königreich, einen Bericht, der die Ergebnisse einer Reihe von Workshops zusammenfasst, die Ende 2020 stattfanden. Der eindeutige Konsens war, dass KI-Tools, wenn überhaupt, nur geringe Auswirkungen auf die Bekämpfung von COVID-19 hatten.

Dies besagen auch die Ergebnisse von zwei großen Studien, in denen Hunderte von im letzten Jahr entwickelten Vorhersagetools bewertet wurden. Wynants ist die Hauptautorin einer dieser Studien, einer Übersichtsarbeit im "British Medical Journal", die derzeit weiter noch aktualisiert wird, sobald neue Tools veröffentlicht und bestehende getestet wurden. Sie und ihre Kollegen untersuchten 232 Algorithmen zur Diagnose von Patienten oder zur Vorhersage des Krankheitsverlaufs von Erkrankten. Sie kamen zu dem Ergebnis, dass keiner von ihnen für den klinischen Einsatz geeignet ist. Nur zwei wurden als vielversprechend genug zumindest für künftige Tests ausgewählt. "Es ist schockierend", sagt Wynants. "Ich hatte einige Bedenken dieser Technik gegenüber, aber das Ergebnis hat meine Befürchtungen noch übertroffen".

Wynants' Studie wird durch eine weitere umfangreiche Untersuchung von Derek Driggs, einem Forscher für maschinelles Lernen an der Universität Cambridge, und seinen Kollegen gestützt, die in "Nature Machine Intelligence" veröffentlicht wurde. Das Team untersuchte Deep-Learning-Modelle für die Diagnose von COVID-19 und die Vorhersage des Patientenrisikos anhand medizinischer Aufnahmen wie Röntgenaufnahmen und Computertomografie-Bilder des Brustkorbs. Sie untersuchten 415 veröffentlichte Tools und kamen wie Wynants und ihre Kollegen zu dem Schluss, dass kein einziges davon für den klinischen Einsatz geeignet war.

"Diese Pandemie war ein großer Test für KI und Medizin", sagt Driggs, der selbst an einem Machine-Learning-Tool arbeitet, das Ärzten während der Pandemie helfen sollte. "Das hätte viel dazu beitragen können, die Öffentlichkeit auf unsere Seite zu ziehen", sagt er. "Aber ich glaube nicht, dass wir diesen Test bestanden haben." Beide Teams stellten fest, dass die Forscher immer wieder dieselben grundlegenden Fehler in der Art und Weise machten, wie sie ihre Systeme trainierten oder testeten. Falsche Annahmen über die vorhandenen Daten führten häufig dazu, dass die Trainings-Modelle nicht wie erhofft funktionierten.

Wynants und Driggs sind nach wie vor davon überzeugt, dass die KI das Potenzial hat, wirklich zu helfen. Sie sind jedoch besorgt, dass sie sogar schädlich sein könnte, wenn sie falsch eingesetzt wird, weil sie Diagnosen übersehen oder das Risiko für gefährdete Patienten unterschätzen könnte. "Es gibt einen großen Hype um maschinelle Lernmodelle und was sie heute können", sagt Driggs. Unrealistische Erwartungen führten dazu, dass diese Instrumente eingesetzt werden, bevor sie fertig sind. Wynants und Driggs sagen beide, dass einige der untersuchten Algorithmen bereits in Krankenhäusern eingesetzt werden, und einige werden von privaten Entwicklern vermarktet. "Ich befürchte, dass sie den Patienten geschadet haben könnten", sagt Wynants.

Was ist also schief gelaufen? Und wie können wir diese Probleme künftig verhindern? Wenn es eine positive Seite gibt, dann die, dass die Pandemie vielen Forschern klar gemacht hat, dass sich die Art und Weise, wie KI-Tools entwickelt werden, ändern muss. "Die Pandemie hat Probleme ins Rampenlicht gerückt, die wir schon seit einiger Zeit mit uns herumschleppen", sagt Wynants. Viele der aufgedeckten Probleme hängen mit der schlechten Qualität der Daten zusammen, die die Forscher bei der Entwicklung ihrer Tools verwendet haben. Informationen über COVID-19-Patienten, einschließlich medizinischer Scans, wurden mitten in einer weltweiten Pandemie gesammelt und weitergereicht, oft von den Ärzten, die um das Leben dieser Patienten kämpften. Die Forscher wollten schnell helfen – und dies waren die einzigen öffentlich zugänglichen Datensätze. Dies bedeutete jedoch, dass viele Tools auf der Grundlage von falsch gekennzeichneten Daten oder sogar Daten aus unbekannten Quellen erstellt wurden.

Driggs weist auf das Problem der so genannten Frankenstein-Datensätze hin, die aus mehreren Quellen zusammengefügt werden und Duplizierungen enthalten können. Dies bedeutet, dass einige Tools mit denselben Daten getestet werden, mit denen sie trainiert wurden, was sie genauer erscheinen lässt, als sie sind. Außerdem wird dadurch die Herkunft bestimmter Datensätze unklar. Das kann bedeuten, dass Forscher wichtige Merkmale übersehen, die das Training ihrer Modelle verfälschen. Viele haben unwissentlich einen Datensatz verwendet, der Brustscans von Kindern enthielt, die nicht an COVID-19 erkrankt waren, um zu zeigen, wie Fälle ohne die Erkrankung aussehen. Das Ergebnis war, dass die KI lernte, Kinder zu erkennen, nicht Corona-Patienten.

Driggs' Gruppe trainierte ihr eigenes Modell anhand eines Datensatzes, der eine Mischung aus Scans enthielt, die im Liegen und im Stehen aufgenommen worden waren. Da Patienten, die im Liegen gescannt wurden, mit größerer Wahrscheinlichkeit ernsthaft krank waren, lernte die KI fälschlicherweise, aus der Position einer Person ein ernsthaftes Corona-Risiko vorherzusagen. In anderen Fällen wurde festgestellt, dass einige KI-Systeme die Schriftart erkannten, die bestimmte Krankenhäuser für die Beschriftung der Scans verwendeten. Dies führte dazu, dass die Schriftarten von Krankenhäusern mit schwerwiegenderen Fällen zu "Vorhersagemerkmalen" für das COVID-19-Risiko wurden.

Fehler wie diese scheinen im Nachhinein offensichtlich. Sie können auch durch Anpassung der Modelle behoben werden, wenn die Forscher sich ihrer bewusst sind. Es ist möglich, die Unzulänglichkeiten zu kommunizieren und ein weniger genaues, aber weniger irreführendes Modell zu veröffentlichen. Viele Tools wurden jedoch entweder von KI-Forschern entwickelt, denen das medizinische Fachwissen fehlte, um Fehler in den Daten zu erkennen – oder von medizinischen Forschern, denen die KI-Fähigkeiten fehlten, um diese Fehler zu kompensieren.

Ein subtileres Problem, auf das Driggs hinweist, ist die Verzerrung, die zu dem Zeitpunkt entsteht, zu dem ein Datensatz beschriftet wird. So wurden beispielsweise viele medizinische Scans danach benannt, ob die Radiologen, die sie erstellten, sagten, dass sie COVID-19 zeigten. Dadurch wird jedoch die Voreingenommenheit des jeweiligen Arztes in die Ground Truth" eines Datensatzes eingebettet bzw. übernommen. Es wäre viel besser, einen medizinischen Scan mit dem Ergebnis eines PCR-Tests und nicht mit der Meinung eines einzelnen Arztes zu taggen, sagt Driggs. Aber in vielbeschäftigten Krankenhäusern ist nicht immer Zeit für statistische Feinheiten.

Das hat jedoch nicht verhindert, dass einige dieser Werkzeuge in der klinischen Praxis eingesetzt werden. Wynants sagt, es sei nicht klar, welche Tools wie eingesetzt werden. Krankenhäuser geben manchmal an, dass sie ein Tool nur zu Forschungszwecken verwenden, was es schwierig macht, zu beurteilen, inwieweit sich die Ärzte auf diese Instrumente verlassen. "Es gibt eine Menge Geheimnistuerei", sagt sie. Wynants bat ein Unternehmen, das Deep-Learning-Algorithmen vermarktet, um Informationen über seinen Ansatz, erhielt aber keine Antwort. Später fand sie mehrere veröffentlichte Modelle von Forschern, die mit diesem Unternehmen in Verbindung stehen, die alle ein hohes Risiko der Verzerrung aufweisen. "Wir wissen nicht wirklich, was das Unternehmen daa implementiert hat", sagt sie.

Wynants zufolge schließen einige Krankenhäuser sogar Geheimhaltungsvereinbarungen mit Anbietern medizinischer KI ab. Als sie die Ärzte fragte, welche Algorithmen oder Software sie verwenden, sagten sie ihr manchmal, dass sie das nicht sagen dürfen.

Was ist die Lösung? Bessere Daten würden helfen, aber in Zeiten der Krise ist das eine große Herausforderung. Wichtiger ist es, das Beste aus den vorhandenen Datensätzen zu machen. Am einfachsten wäre es, wenn die KI-Teams mehr mit Klinikern zusammenarbeiten würden, sagt Driggs. Die Forscher müssen auch ihre Modelle weitergeben und offenlegen, wie sie trainiert wurden, damit andere sie testen und darauf aufbauen können. "Das sind zwei Dinge, die wir heute schon tun könnten", sagt er. "Und sie würden vielleicht 50 Prozent der Probleme lösen, die wir festgestellt haben".

Es wäre auch einfacher, an die Daten heranzukommen, wenn die Formate standardisiert wären, sagt Bilal Mateen, ein Arzt, der das Team für Klinik-Technologie beim Wellcome Trust leitet. Ein weiteres Problem, auf das Wynants, Driggs und Mateen hinweisen, besteht darin, dass die meisten Forscher in aller Eile ihre eigenen Modelle entwickelten, anstatt zusammenzuarbeiten oder bestehende Modelle zu verbessern. Das Ergebnis war, dass die kollektive Anstrengung von Forschern auf der ganzen Welt Hunderte von mittelmäßigen Werkzeugen hervorbrachte, anstatt einer Handvoll guter und getesteter.

"Die Modelle ähneln sich so sehr, dass sie fast alle die gleichen Techniken mit geringfügigen Änderungen nutzen und die gleichen Eingaben verarbeiten – und sie machen alle die gleichen Fehler", sagt Wynants. "Wenn all diese Leute, die neue Modelle entwickeln, stattdessen Modelle testen würden, die bereits verfügbar sind, hätten wir vielleicht schon etwas, das in der Klinik wirklich helfen könnte." In gewisser Weise ist dies ein altes Problem der Forschung. Viele Wissenschaftler haben nur wenige berufliche Anreize, ihre Arbeit zu teilen oder bestehende Ergebnisse zu validieren. "Es gibt keine Belohnung für die letzte Meile, die die Technologie vom Labortisch zum Krankenbett bringt", sagt Mateen. Die WHO will deshalb nun ein Programm zum Datenaustausch auflegen. "Solange wir nicht begreifen, dass wir die unsexy Probleme vor den sexy Problemen lösen müssen, sind wir dazu verdammt, die gleichen Fehler zu wiederholen", sagt Mateen.

(bsc)