KI könnte die Gesundheitsversorgung gerechter machen

Ein genaueres Training von Deep-Learning-Modellen könnte die Bewertung von Schmerzen verbessern und Ärzten helfen, Patienten mehr zu glauben.

In Pocket speichern vorlesen Druckansicht 7 Kommentare lesen

(Bild: Ms. Tech)

Lesezeit: 4 Min.
Von
  • Karen Hao
Inhaltsverzeichnis

In den letzten Jahren hat die Forschung gezeigt, dass Deep Learning bei der Interpretation von Aufnahmen, etwa bei der Krebsfrüherkennung und der Diagnose von Augenkrankheiten, mit Experten mithalten kann. Es gibt aber auch Grund zur Vorsicht. Andere Untersuchungen haben nämlich gezeigt, dass Deep Learning durchaus dazu neigt, Diskriminierung aufrechtzuerhalten. Bei einem Gesundheitssystem, das bereits von Ungleichheiten geprägt ist, könnten schlampige Deep-Learning-Anwendungen den Status quo weiter verschlimmern.

Um bestehende Ungleichheiten umzukehren, anstatt sie zu verschärfen, schlägt ein im Fachjournal Nature Medicine veröffentlichter Artikel nun einen neuen Weg für die Entwicklung von medizinischen Algorithmen vor. Ziad Obermeyer von der UC Berkeley und Kollegen schreiben, dass der Schlüssel darin besteht, Trainingsalgorithmen nicht mehr mit der Leistung menschlicher Experten wetteifern zu lassen.

Der Artikel stellt ein klinisches Beispiel für die Unterschiede vor, die bei der Behandlung von Knie-Arthrose bestehen. Um leichter die richtige Behandlung zu verschreiben, zum Beispiel Physiotherapie, Medikamente oder eine Operation, bestimmen Ärzte zunächst die Stärke der oft chronischen Schmerzen.

Traditionell prüfen Radiologen dafür Röntgenaufnahmen des Knies und bewerten die Schmerzen anhand des Kellgren-Lawrence-Gradeinteilung (KLG). Dieser berechnet die Schmerzniveaus auf der Basis von Merkmalen struktureller Schäden wie das Ausmaß des fehlenden Knorpels.

Allerdings haben von der US-Gesundheitsbehörde National Institute of Health gesammelte Daten ergeben, dass Ärzte mit dieser Methode die Schmerzen schwarzer Patienten systematisch als weitaus weniger schwerwiegend bewerten, als die Patienten ihn selbst beschreiben. Patienten melden ihre Schmerzniveaus anhand einer Umfrage, in der erfragt wird, wie weh bestimmte Bewegungen tun, eine vollständige Streckung des Knies. Diese selbst berichteten Schmerzniveaus werden jedoch zugunsten des KLG-Werts des Radiologen bei der Verschreibung der Behandlung ignoriert. Mit anderen Worten, schwarze Patienten, die die gleiche Menge an fehlendem Knorpel aufweisen wie weiße Patienten, berichten von höheren Schmerzniveaus.

Als Erklärung hieß es oft, dass schwarze Patienten über stärkere Schmerzen berichten, um ernster genommen zu werden. Dabei könnte die KLG-Methodik voreingenommen sein, schließlich wurde sie vor Jahrzehnten mit Daten von weißen britischen Bevölkerungsgruppen entwickelt. Deshalb mahnen medizinische Experten, dass die Liste der Röntgenmarker möglicherweise nicht alle physischen Schmerzquellen der Gesamtpopulation enthält. Anders ausgedrückt könnte es radiologische Schmerzindikatoren geben, die häufiger bei Schwarzen auftreten, aber schlicht nicht Teil der KLG-Einteilung sind.

Um diese Möglichkeit zu überprüfen, trainierten die Forscher ein Deep-Learning-Modell, um das von Patienten selbst berichtete Schmerzniveau anhand ihrer Knie-Röntgenaufnahme vorherzusagen. Wenn das resultierende Modell eine schlechte Genauigkeit hätte, würde dies darauf hindeuten, dass selbst berichtete Schmerzen eher willkürlich sind. Wenn das Modell jedoch eine wirklich gute Genauigkeit hätte, würde dies den Beweis liefern, dass selbst berichtete Schmerzen tatsächlich mit radiografischen Markern im Röntgenbild korrelieren.

Nach mehreren Experimenten mit dem Ziel, Störfaktoren auszuschließen, stellten die Forscher schließlich fest, dass das Modell bei der Vorhersage von selbst berichteten Schmerzniveaus sowohl für weiße als auch für schwarze Patienten, insbesondere aber für schwarze Patienten, viel genauer als KLG war. Es reduzierte die Rassenunterschiede bei jeder Schmerzstufe um fast die Hälfte.

Das machte deutlich, dass die Standardmethode zur Schmerzmessung fehlerhaft ist und für die Schwarz Bevölkerung viel höhere Kosten verursacht. Es ist ein starker Hinweis darauf, dass die medizinische Gemeinschaft untersuchen sollte, welche neuen Röntgenmarker der Algorithmus möglicherweise sieht, um ihre Bewertungsmethode entsprechend zu aktualisieren.

"Das zeigt auf wirklich aufregende Weise, wie solche Algorithmen in die medizinische Diagnostik einfließen können", sagt Obermeyer. "Es zeigt, dass es hier etwas gibt, das man nicht versteht und sich anschauen sollte. Es schafft die Voraussetzung dafür, mithilfe dieser Algorithmen herauszufinden, was los ist."

Anstatt den Algorithmus auf fundiertes Expertenwissen zu trainieren, entschieden sich die Forscher, die Selbsteinschätzung der Patienten als Wahrheit zu behandeln. Dadurch wurden wichtige Lücken in dem aufgedeckt, was der medizinische Bereich normalerweise als das "objektivere" Schmerzmaß ansieht, sagt Irene Chen, die am Massachusetts Institute of Technology erforscht, wie sich beim Maschinenlernen Ungleichbehandlungen im Gesundheitssystem reduzieren lassen.

"Das war genau das Geheimnis", stimmt Obermeyer zu. Wenn Algorithmen immer nur so trainiert werden, dass sie der Leistung von Experten entsprechen, werden sie bestehende Lücken und Ungleichheiten einfach fortschreiben. (vsz)