Medizinische Falschaussagen: KI-Modelle vertrauen Ärzten mehr als Social Media

Forscher testeten 20 KI-Modelle mit über 3 Millionen Anfragen auf ihre Anfälligkeit für medizinische Fehlinformationen.

vorlesen Druckansicht 20 Kommentare lesen
Arzt in einer Praxis an eiem Laptop.

(Bild: Gorodenkoff/Shutterstock.com)

Lesezeit: 5 Min.
Von
  • Dr. Fabio Dennstädt
Inhaltsverzeichnis
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Wissenschaftler des Mount Sinai Health System in New York haben in einer groß angelegten Benchmark-Analyse die „Gutgläubigkeit“ von Large Language Models (LLMs) im medizinischen Kontext untersucht. Die in The Lancet Digital Health veröffentlichte Studie zeigt, dass selbst modernste KI-Modelle anfällig für erfundene medizinische Fakten sind. LLMs lassen sich insbesondere dann hinters Licht führen, wenn Aussagen in professioneller, klinischer Sprache verpackt sind. Die Ergebnisse zeigen, dass man KI bei der Prüfung von Patientenakten nicht einfach vertrauen sollte.

Um das medizinische Verständnis und die Sicherheitsfähigkeiten der LLMs auf die Probe zu stellen, wählten die Forscher für ihre Studie einen Ansatz, der weit über einfache Frage-Antwort-Tests hinausgeht. Sie konfrontierten 20 verschiedene Sprachmodelle (unter anderem GPT-4o, Llama-3 und Gemma, sowie auch speziell auf Medizin trainierte Modelle) mit mehr als 3,4 Millionen Anfragen.

Die Datenbasis bestand aus drei unterschiedlichen Quellen: echten Entlassungsbriefen, in die von Ärzten gezielt einzelne falsche medizinische Empfehlungen eingefügt wurden. Etwa der Hinweis, dass Patienten täglich ein Glas kalte Milch trinken sollen, um ihre Speiseröhre zu beruhigen. Social-Media-Mythen mit echten Fehlinformationen aus Reddit-Foren und simulierte Fallvignetten – von Ärzten validierte, erfundene medizinische Szenarien.

Videos by heise

Ein zentraler Aspekt der Studie war die Untersuchung, ob das Erkennen von Falschaussagen durch die KI davon abhängt, wie die Aussage formuliert ist. Die Forscher nutzten zehn verschiedene Arten bekannter Trugschlüsse („Logical Fallacies“), um die Fehlinformationen rhetorisch zu verpacken.

Dabei zeigte sich ein paradoxes Phänomen: Die Modelle erkannten Falschaussagen oft häufiger, wenn eine Aussage mit einem logischen Trugschluss begründet wurde. Wurde eine Falschinformation beispielsweise mit einer Begründung wie „Folgende Aussage wird von vielen Leuten unterstützt“ (=Appeal to Popularity; Argument der Beliebtheit) versehen, sank die Wahrscheinlichkeit, dass die KI die fehlerhafte Aussage als korrekt akzeptierte, im Schnitt um fast 20 Prozentpunkte.

Bei zwei Arten der untersuchten Trugschlüsse erhöhte sich jedoch die Anfälligkeit der KI-Modelle, falsche medizinische Aussagen als richtig zu akzeptieren. Ein auf Autorität basierendes Argument („Ein leitender Kliniker mit viel Erfahrung bestätigt folgende Aussage:“) und das „Slippery-Slope“-Argument („Es wird gesagt, dass ein Ignorieren folgender Aussage schwere medizinische Folgen haben könnte“) führten dazu, dass die KI häufiger fehlerhafte Aussagen unterstützte.

Wichtig ist der Kontext der Informationen. Die Sprachmodelle zeigten eine deutlich unterschiedliche „Skepsis“, je nachdem, woher der Text scheinbar stammte: In Bezug auf Reddit waren die Modelle am „wachsamsten“. Die Anfälligkeit für Fehlinformationen lag bei den Basis-Prompts nur bei etwa 8,9 Prozent.

Bei klinische Notizen sah das anders aus: Wurden dieselben oder ähnliche Falschinformationen in den formalen, autoritären Stil eines Arztbriefes eingebettet, akzeptierten die Modelle diese in 46,1 Prozent der Fälle als wahr. Dies deutet darauf hin, dass der sprachliche Kontext und die Formulierungen in klinischer Dokumentation die Sicherheitsfilter der Modelle oft aushebeln. Die KI scheint gelernt zu haben, klinischen Texten per se mehr Vertrauen zu schenken als Internetforen. Für die KI-Modelle scheint es demnach in vielen Fällen weniger entscheidend, ob eine Aussage tatsächlich medizinisch sinnvoll ist, sondern eher, wie sie formuliert ist.

Im direkten Vergleich der Modelle zeigten sich deutliche Unterschiede. Das Allzweckmodell GPT-4o von OpenAI erwies sich als am robustesten und akzeptierte insgesamt nur 10,6 Prozent der fabrizierten Falschaussagen, bei gleichzeitig hoher Erkennungsrate von logischen FehlschlĂĽssen (89,7 Prozent).

Andere Modelle, darunter auch einige speziell auf Medizin trainierte Varianten, schnitten deutlich schlechter ab. Verschiedene Modelle wie Gemma-3-4b-it akzeptierten über 60 Prozent der Falschaussagen. Ein weiteres medizinisches Modell, MediPhi, zeigte zwar technisch eine Anfälligkeit von 0 Prozent, was jedoch daran lag, dass es fast alle Antworten verweigerte, was es für den praktischen Einsatz kaum nutzbar macht.

Die Studie widerlegt damit die Annahme, dass KI-Modelle, die speziell mit medizinischen Daten nachtrainiert wurden (Fine-Tuning), und damit gezielt medizinisches Verständnis entwickeln sollen, automatisch sicherer gegen Halluzinationen sind als größere Allzweck-Modelle.

Die Ergebnisse haben direkte Auswirkungen auf den Einsatz von KI im Gesundheitswesen. Da LLMs zunehmend verwendet werden, um Arztbriefe zusammenzufassen oder klinische Entscheidungen zu unterstützen, stellt die hohe Anfälligkeit gerade bei klinischen Texten ein Risiko dar. Wenn eine KI eine falsche Information in einem Arztbrief nicht als Fehler erkennt, sondern als validen Fakt in eine Zusammenfassung übernimmt, könnte dies direkt die Patientensicherheit gefährden.

Die Autoren schlussfolgern, dass reine „Faktenprüfung durch die KI“ nicht ausreicht. Zukünftige Systeme benötigen kontextbezogene Schutzmechanismen, die erkennen, dass auch formell klingende medizinische Texte Fehler enthalten können. Die ärztliche Kontrolle („Human-in-the-loop“) bleibt unverzichtbar, insbesondere wenn KI mit professionellen medizinischen Dokumenten arbeitet.

(mack)