KI im Gesundheitswesen: "Kaum ein Datensatz ist frei von Bias"
Eine solide Datenbasis ist für das KI-Training gerade im Gesundheitswesen von großer Bedeutung. Woran es noch scheitert, erklärt Theresa Ahrens im Interview.
Mit einer umfassenden und vielfältigen Datenbasis lassen sich beim Training von KI-Systemen im Gesundheitswesen bessere Ergebnisse erzielen. Eine Datenbasis, die nicht die gesamte Bevölkerung oder Zielgruppe abbildet, führt zu einer mit Vorurteilen behafteten KI. Dabei ist Ausgewogenheit gerade im Gesundheitsbereich von Bedeutung, da Fehldiagnosen teils gravierende Auswirkungen für die Gesundheit haben können. Warum das so ist und welche Möglichkeiten es noch gibt, erklärt Theresa Ahrens von der Abteilung Digital Health Engineering am Fraunhofer IESE im Gespräch.
heise online: Einseitige Datensätze sind problematisch. Warum ist das so?
Speziell das Geschlecht und auch Aspekte wie die ethnische Herkunft sind Quellen für einen KI-Bias. Aber es lässt sich sagen, dass es kaum einen Datensatz gibt, der komplett frei von Bias ist. Das müssen wir uns einfach bewusst machen. Die Daten, die im Gesundheitsbereich vorliegen, sind hauptsächlich die von heterosexuellen, älteren, weißen Männern. Frauen, Kinder, People of Colour – sie alle sind unterrepräsentiert.
Immer wieder belegen Studien, dass Entscheidungen, die von KI-Systemen für diese Personengruppen im Gesundheitsbereich getroffen werden, deutlich schlechter sind. Medizinische Forschung wurde und wird immer noch sehr stark an Männern ausgerichtet. Die Verzerrung der Datengrundlage überträgt sich dann natürlich auch automatisch auf KI-Systeme und deren Empfehlungen.
Aufgabe der Forschung ist es dann, den aufgrund der verzerrten Datengrundlage entstandenen Bias zu untersuchen und die KI-Systeme möglichst gut aufzustellen und die Datensätze zu normalisieren.
heise online: Wie wird dann normalisiert?
Zunächst muss noch einmal betont werden, dass es eigentlich das Ziel sein sollte, eine Datenbasis zu haben, die nicht verzerrt ist. Stellt man dann aber doch fest, dass es systemische Verzerrungen gibt, können verschiedene Ansätze verfolgt werden, um diese zu reduzieren. Zum Beispiel lassen sich synthetische Datensätze erzeugen und unterrepräsentierte Bevölkerungsgruppen mit realistischen Daten ergänzen. Außerdem werden auch immer noch neue Verfahren hierzu entwickelt, da dieses Problem häufig und herausfordernd ist.
Kann es auch sein, dass die KI zu sehr mit gleichen Daten trainiert wird?
Das ist durchaus möglich. Dann ist der Trainingsdatensatz nicht optimal auf die Zielgruppe ausgerichtet und bildet diese nicht ab. Ein anderes Phänomen kann hier auch Overfitting sein. Dann wurden die KI-Systeme zu stark auf den Datensatz trainiert. Das Overfitting muss man auf jeden Fall im Auge behalten und darauf achten, dass der Trainingsdatensatz und auch das KI-Training selbst aufeinander abgestimmt sind. Diese KI-Systeme scheitern dann häufig, wenn zum ersten Mal realistische Daten aus dem medizinischen Alltag verwendet werden. Diese Daten haben beispielsweise eventuell mehr Hintergrundrauschen oder weichen in anderer Art ab. Daher sollten die Datensätze für die KI-Entwicklung immer möglichst genau die Daten abbilden, die im Routineeinsatz verwendet wurden.
Digital Health abonnieren
Alle 14 Tage bieten wir Ihnen eine Ăśbersicht der neuesten Entwicklungen in der Digitalisierung des Gesundheitswesens und beleuchten deren Auswirkungen.
E-Mail-Adresse
Ausführliche Informationen zum Versandverfahren und zu Ihren Widerrufsmöglichkeiten erhalten Sie in unserer Datenschutzerklärung.
Wer trägt die Verantwortung?
Es ist Aufgabe der Forschenden und KI-Hersteller, die KI-Systeme zu kontrollieren und für ein Qualitätsmanagement zu sorgen. Auch die zulassenden Behörden sollten hier entsprechende Prüfungen durchführen.
Derzeit gibt es große Anstrengungen, möglichst viele Daten für KI-Systeme zu sammeln. Wie lange wird es Ihrer Meinung nach dauern, bis genügend Daten zur Verfügung stehen?
Das kann ich nicht sagen. Aber so, wie es jetzt läuft, würde ich davon ausgehen, dass ich in meiner Lebenszeit nicht mehr davon profitieren werde – insbesondere, weil häufig auch Zeitreihen benötigt werden. Das heißt, dass Daten über mehrere Jahre von einer Person benötigt werden. Diese Art von Daten braucht man zum Beispiel für die Vorhersage von Krankheiten. Deshalb würde ich sehr dafür plädieren, diese Projekte zu beschleunigen. Es werden viele Daten gesammelt, aber das meiste liegt in irgendwelchen Silos und ist nicht zugänglich.
FĂĽr die elektronische Patientenakte ist ab Mitte 2025 eine Datenausleitung an das Forschungsdatenzentrum Gesundheit geplant. Ist das fĂĽr Sie ein Hoffnungsschimmer?
Ja, das ist es, und da bin ich auch ungeduldig. Aber auch dann haben wir erst Datenpunkte ab 2025. Im medizinischen Bereich werden oft Längsschnittstudien gemacht, die über Lebenszeiträume und am besten auch über Generationen gehen. Dann wird es besonders interessant, wenn man Gesundheitsdaten von Familien bekommen könnte. Insofern ist das Forschungsdatenzentrum Gesundheit auf jeden Fall ein Schritt in die richtige Richtung.
In Dänemark, Norwegen und Schweden gibt es bereits nationale Datenbanken, die schon viel weiter sind. In Situationen wie der Coronakrise können diese Daten schneller analysiert und die Auswirkungen von Maßnahmen besser überprüft werden. Hier gab es zum Beispiel relativ schnell eine interessante Studie, dass extreme Frühgeburten und Totgeburten während des Lockdowns reduziert waren.
Mit dem Europäischen Gesundheitsdatenraum soll das auch kommen, dann werden Daten auch bis zu 100 Jahre lang gespeichert. Hilft das?
Auch das ist noch ein langer Weg. Der EHDS ist aber auf jeden Fall ein wichtiger Schritt auf europäischer Ebene, insbesondere für die internationale Zusammenarbeit in Gesundheitsfragen. Allerdings sind die europäischen Gesundheitsdaten nicht unbedingt 1:1 auf Deutschland übertragbar. Es gibt zum Beispiel eine aktuelle Studie, die zeigt, dass der sogenannte Portosystemic Hepatic encephalopathy Score (PHES) zwischen Deutschland und Dänemark nicht direkt übertragbar ist und es wurden neue dänische Normwerte definiert. Dieses Beispiel zeigt, dass es doch Unterschiede gibt, selbst wenn die Bevölkerungsgruppen vermeintlich sehr ähnlich sind.
Vergleiche zwischen den Ländern sind teilweise hilfreich, aber es gibt auch einfach Unterschiede, die kultureller Natur sind. In Norwegen sind die Menschen beispielsweise wahnsinnig aktiv und bewegen sich mehr in der Natur, was sich natürlich positiv auf deren Gesundheit auswirkt. Die Ernährung ist ebenfalls ein Faktor, aber auch weitere Lebensumstände wie das Klima sind entscheidend. Wie lange sind die Personen an der Sonne und an welchen Orten? Wie sieht das Vorsorgeangebot der Krankenkassen aus? Welche Behandlungsempfehlungen gibt es oder welche Medikamente? Das ist in den Ländern und in Deutschland sogar von Krankenkasse zu Krankenkasse unterschiedlich.
Momentan wird auch diskutiert, ob entwickelte KI-Systeme einfach zwischen verschiedenen Gesundheitssystemen zum Beispiel aus den Vereinigten Staaten oder aus asiatischen Ländern auf den europäischen Raum übertragen werden können – weil es eben diese kulturellen Unterschiede gibt oder sich die Gesundheitssysteme unterscheiden. Regulatorisch sind diese Systeme sowieso getrennt. Das heißt, die Zulassung muss erneut durchlaufen werden. Aber die KI-Outputs müssen wieder für die neue Zielgruppe qualitätsgesichert werden.
Man braucht auf jeden Fall eine gute nationale Datenbasis, aber man kann auch sehr von internationalen Daten profitieren. Je mehr Daten zur Verfügung stehen, desto geringer ist der mögliche KI-Bias. Bislang ist die Datenlage im Gesundheitsbereich in Deutschland allerdings eher miserabel. Diese in den Griff zu bekommen, ist eine Mammutaufgabe. Auch die Zusammenführung, Standardisierung und Harmonisierung der Daten sind Herausforderungen. Das Potenzial der Datenmengen überwiegt jedoch deutlich.
WĂĽrde es auch reichen, mehr Werbung fĂĽr Forschungsprojekte zu machen?
Hier muss die Wissenschaft sicherlich einen Schritt auf die Gesellschaft zugehen und auch die Wissenschaftskommunikation weiter vorantreiben – auch, um Datenschutzbedenken abzubauen. Datenspenden sind auf jeden Fall auch ein wichtiger Baustein. Wichtig wäre auch hier wieder eine Qualitätssicherung der Daten oder ein entsprechend angepasstes Datenmanagement in den Projekten.
Je nach Forschungsfrage werden unterschiedliche Datensätze benötigt. Die Forschungsfrage muss sehr gut durchdacht sein. Diverse Teams helfen auch, dann gäbe es vielleicht zum Beispiel nicht erst seit kurzem den ersten weiblichen Crashtest-Dummy. Die Vielfalt der Gesellschaft muss unbedingt berücksichtigt werden – mit einer entsprechenden vielfältigen Datenbasis und diversen Forschungsteams ist das möglich.
Wie sieht es mit der Qualität der Daten aus?
Bei professionell geführten medizinischen Registern wird die Qualität von den Betreibern sichergestellt. Bei den Daten aus der elektronischen Patientenakte und dem Europäischen Gesundheitsdatenraum wird die Qualität zwischen den Individuen oder auch den Ländern wahrscheinlich sehr unterschiedlich sein – vor allem am Anfang.
Aus gesellschaftlicher Sicht wäre es hilfreich, wenn die Menschen sich überlegen, was sie in die ePA hochladen und auch den gesellschaftlichen Nutzen klar vermittelt bekommen. Hier wäre es ideal, wenn die Datenerfassung in der ePA möglichst automatisiert in die verschiedenen Prozesse eingebunden wird. Die Befüllung der ePA darf nicht zu einer zusätzlichen Belastung für die Patientinnen und Patienten oder die verschiedenen Heilberufe werden.
Welche Datensätze, die bereits verfügbar sind, nutzen Sie? Welche Forschungsprojekte planen Sie?
Der Mimic Datensatz (MIMIC-III Clinical Database v1.4) für Intensivpatientinnen und -patienten ist beispielsweise sehr gut aufgebaut und wird international häufig genutzt. Da haben wir auch selber Zugriffe auf unsere eigene Forschung. Es gibt auch entsprechende Intensivdatensätze aus Europa. Der Grund ist, dass auf der Intensivstation sehr viele Daten anfallen, da die Vitaldaten der Patientinnen und Patienten breit und dauerhaft überwacht werden. Dies zeigt aber auch, dass diese Routinedaten und vor allem der Datenzugang für die Forschung sehr wertvoll sind.
(mack)