„ChatGPT Health“: Schwächen bei medizinischen Notfällen und der Suizidprävention

Eine aktuelle Studie zeigt auf dass ChatGPT Health insbesondere bei echten Notfällen und auch bei psychischen Krisen teils gefährliche Ratschläge erteilt.

11

(Bild: Farknot Architect / Shutterstock.com)

18:22 Uhr

Lesezeit: 5 Min.

Von

Dr. Fabio Dennstädt

Im Januar 2026 hat OpenAI mit „ChatGPT Health“ einen Service eingeführt, der als erste digitale Anlaufstelle für Gesundheitsfragen dienen soll. Entscheidend für einen solchen Einsatz ist, dass KI die Schwere und Dringlichkeit eines Problems korrekt bewertet. Die Skala der Empfehlungen reicht dabei von „zu Hause auskurieren“ über „einen Arzt in den nächsten Wochen aufsuchen“ bis zum sofortigen Gang in eine Notaufnahme.

Forscher haben nun in einer im Fachjournal Nature Medicine veröffentlichten Studie systematisch untersucht, wie verlässlich und sicher diese KI-basierte Triage in der Praxis funktioniert, und stießen dabei auf bedenkliche Mängel.

Lesen Sie auch

OpenAI wirbt mit ChatGPT als Navigator für die Gesundheit

Systematische Überprüfung durch medizinische Fallbeispiele

Um die Genauigkeit der KI realitätsnah und kontrolliert zu überprüfen, entwarfen Mediziner 60 detaillierte klinische Fallbeispiele aus 21 Fachbereichen. Diese Fälle wurden dabei methodisch variiert und in den Textvorgaben (Prompts) veränderten die Forscher Merkmale wie Geschlecht und Hautfarbe der fiktiven Patienten, simulierten Hürden wie fehlende Transportmöglichkeiten oder bauten psychologische Faktoren ein, wie etwa die verharmlosende Aussage durch einen Angehörigen.

Lesen Sie auch

Frau in einem dunklen Raum auf dem Bett mit leuchtendem Smartphone. Frau sieht unglücklich aus.

Super-Eliza oder Soziopath? Über die Gefahren der KI-Anthropomorphisierung

Insgesamt wurden 960 dieser Anfragen an ChatGPT Health gestellt. Die Triage-Empfehlungen der KI wurden anschließend mit der unabhängigen Einschätzung eines ärztlichen Expertenteams (basierend auf etablierten klinischen Leitlinien) verglichen.

Videos by heise

Limitationen bei echten Notfällen und harmlosen Situationen

Die Auswertung zeigte ein gemischtes Bild. Bei medizinischen Alltagsproblemen mittleren Schweregrades stimmten die Empfehlungen der KI meist mit denen der Ärztinnen und Ärzte überein. An den Rändern des Schweregrades, also bei völliger Harmlosigkeit oder bei akuter Lebensgefahr, sank die Leistung jedoch deutlich ab.

Unter-Triage (Verpasste Notfälle): In 51,6 Prozent der echten medizinischen Notfälle bewertete die KI die Lage als zu harmlos. Bei Patienten mit einer schweren diabetischen Entgleisung (Ketoazidose) oder einem akuten Asthma-Anfall riet das System beispielsweise dazu, innerhalb der nächsten 24 bis 48 Stunden einen Arzt aufzusuchen, anstatt den sofortigen Weg in die Notaufnahme zu empfehlen. Die KI erkannte im Text zwar teils die kritischen Symptome, gewichtete diese aber oft falsch (etwa mit dem Argument, der Patient spreche trotz Atemnot noch in ganzen Sätzen).

Über-Triage (übertriebene Vorsicht bei leichten Beschwerden)

Umgekehrt zeigte sich ChatGPT Health bei harmlosen Beschwerden oft sehr vorsichtig. Fast 65 Prozent der Fälle, die laut Leitlinien problemlos zu Hause beobachtet werden könnten, stufte das System als behandlungsbedürftig ein und riet zu einem Arztbesuch. Dies birgt laut den Forschern potenziell das Risiko, Ressourcen im Gesundheitssystem unnötig zu belasten.

Beide Fehler (Unter- und Über-Triage) sind natürlich problematisch, wobei insbesondere eine Unter-Triage gefährlich sein kann, wenn Patientinnen und Patienten zu spät die notwendige medizinische Hilfe bekommen. Bei Routinefällen, welche weder besonders dringend, noch harmlos waren, zeigte ChatGPT Health eine gute Leistung und stimmte in 93 Prozent der Fälle mit der ärztlichen Empfehlung überein.

Einfluss von externen Informationen auf die KI-Entscheidung

Die Studie untersuchte außerdem, inwieweit psychologische Effekte die KI-basierte Ersteinschätzung beeinflussen. Es zeigte sich, dass ChatGPT Health anfällig für den sogenannten „Anchoring Bias“ (Ankereffekt) ist. Wurde in einem medizinischen Grenzfall beiläufig erwähnt, dass Freunde die Symptome als nicht besorgniserregend einstuften, ließ sich die KI davon oft beeinflussen. Die Wahrscheinlichkeit, dass das System daraufhin eine weniger dringliche Einschätzung abgab, stieg deutlich an (Odds Ratio von 11,7).

Keinen statistisch signifikanten Einfluss auf die Triage-Empfehlungen hatten hingegen demografische Faktoren wie Hautfarbe oder Geschlecht der Patientinnen und Patienten in den konstruierten Fällen.

Unzuverlässige Sicherheitsmechanismen für psychische Krisen

Ein weiterer Schwerpunkt der Untersuchung war der Umgang der KI mit psychischen Notlagen. Um Nutzer zu schützen, verfügt ChatGPT Health über einen Mechanismus, der bei Suizidgedanken ein Warnbanner mit dem Hinweis „Hilfe ist verfügbar“ und einem Verweis auf Krisenhotlines einblendet.

Die Studie zeigte hier verschiedene Mängel auf. Dieser Schutzmechanismus funktioniert in der Untersuchung zuverlässig bei vagen, eher passiven Aussagen zu Suizidgedanken. Äußerte ein fiktiver Patient jedoch einen konkreten Suizidplan (beispielsweise die Absicht, bestimmte Tabletten einzunehmen) und lieferte gleichzeitig unauffällige medizinische Laborwerte mit, blieb das Warnbanner meist aus. Das System fokussierte sich in diesen Fällen stark auf die körperlichen Parameter – mit Hinweisen wie „Ihre Laborwerte sind normal und deuten auf keine medizinische Ursache für diese Gedanken hin“ und erkannte den akuten psychischen Notfall oft nicht.

Bedeutung für die Regulierung von Gesundheits-KI

Die Autoren der Studie leiten aus ihren Ergebnissen Empfehlungen für den künftigen Einsatz von KI im Gesundheitsmarkt ab. Anbieter wie OpenAI versehen ihre Systeme mit rechtlichen Hinweisen, dass diese keine ärztliche Diagnose ersetzen. Es ist aber nicht unwahrscheinlich, dass viele Menschen einen Arztbesuch verschieben oder vermeiden würden, wenn ihnen die KI versichert, es bestehe kein ernsthaftes Problem.

Die Wissenschaftler schlussfolgern, dass Systeme, die als erster Kontaktpunkt für medizinische Einschätzungen genutzt werden, strengeren Prüfungen unterliegen sollten. Sie schlagen vor, dass patientengerichtete KI-Tools im Gesundheitsbereich vor einer breiten Veröffentlichung ähnliche externe Sicherheits- und Zulassungsprüfungen durchlaufen sollten wie klassische Medizinprodukte, um den Patientenschutz verlässlich zu gewährleisten.