Sprachmodell für medizinische Fragen von Google veröffentlicht

Google Research stellt große Sprachmodelle für den medizinischen Einsatz vor – zugleich mit einem neuen Benchmark für solche Systeme.

In Pocket speichern vorlesen Druckansicht 14 Kommentare lesen

(Bild: Billion Photos/Shutterstock.com)

Lesezeit: 4 Min.

Forschende von Google stellen in "Nature" ein neues großes Sprachmodell vor, das medizinische Fragen beantwortet. Gleichzeitig schlagen sie einen neuen Benchmark vor, um die Leistung solcher Modelle zu bewerten: MultiMedQA.

Bisherige Benchmarks bewerten oft nur die Leistung der Sprachmodelle in einzelnen medizinischen Tests. MultiMedQA enthält daher neue Kriterien zur Beurteilung der Qualität der Antworten entlang von Kriterien wie Faktizität, Verständnis, potenziellem Schaden und Bias. Der Benchmark besteht aus sieben Datensätzen: sechs bereits existierende mit Fragen aus der medizinischen Forschung und von Patientinnen und Patienten sowie HealthSearchQA, einem Datensatz mit 3173 häufig online gesuchten medizinischen Fragen.

Med-PaLM ist ein an medizinische Fragen angepasstes Transformer-Modell, das auf PaLM (Pathways Language Model) mit 540 Milliarden Parametern aufbaut. Mit der Veröffentlichung hinkt Google dem eigenen Forschungsstand allerdings etwas hinterher. Bereits Ende April hatte der Konzern die Verfügbarkeit von Med-PALM-2 für Kooperationspartner angekündigt.

Obwohl das Forschungsteam die Qualität der Antworten von Med-PaLM mit einer Technik namens "Instruction Prompt Tuning" weiter verbessern konnte, zeigt auch Med-PaLM noch die typischen Schwächen großer Sprachmodelle: Zum einen sind die Antworten stark kontextabhängig, zum anderen produziert auch dieses Modell halluzinierte Fakten.

Insgesamt schlug sich das Modell allerdings gar nicht so schlecht. Die Antworten von Med-PaLM auf zufällig ausgewählte Fragen aus MultiMedQA wurden laut dem Paper von neun Ärztinnen und Ärzten bewertet. Das Ergebnis: 92,6 Prozent der detaillierten Antworten von Med-PaLM entsprechen dem "wissenschaftlichen Konsens". 5,8 Prozent der Antworten von Med-PaLM wurden als potenziell schädlich eingestuft – vergleichbar mit 6,5 Prozent der Antworten menschlicher Experten. Allerdings enthielten die Antworten des Sprachmodells in 18,7 Prozent der Fälle falsche oder unpassende Inhalte – deutlich häufiger als die menschlichen Antworten, bei denen es nur 1,4 Prozent waren.

Trotz der zum Teil beeindruckenden Antworten des Modells zeigen sich Experten gegenüber dem Science Media Center Deutschland skeptisch. "Es ist fragwürdig, wie gut das Modell mit einer realistischen Situation umgehen würde, in der ein Patient unklare, unvollständige und zum Teil falsche Aussagen macht und Entscheidungen im Kontext praktischer klinischer Restriktionen getroffen werden müssen", sagen etwa Roland Eils und Benjamin Wild vom Center for Digital Health des Berlin Institute of Health an der Charité (BIH). "Das größte methodische Problem ist, ähnlich wie bei anderen LLMs, dass die Modelle halluzinieren können und es schwer zu beurteilen ist, wann eine Aussage richtig ist und wann sie nur auf den ersten Blick richtig erscheint."

Und Andreas Holzinger vom Institut für Medizinische Informatik/Statistik der Medizinischen Universität Graz betont, Benchmarks könnten "oft nicht die Fähigkeit eines Modells beurteilen, auf kontextspezifische oder individualisierte Anfragen zu reagieren, wie sie gerade in der alltäglichen medizinischen Praxis auftreten können." Um die Eignung eines großen Sprachmodells für den Einsatz in der medizinischen Praxis effektiv beurteilen zu können, "wäre es daher wichtig, sich nicht nur auf Benchmarks zu verlassen, sondern auch auf sorgfältige Tests und Evaluierungen unter realen Bedingungen, einschließlich der Prüfung möglicher ethischer, rechtlicher und sicherheitsrelevanter Aspekte".

Die Experten kritisieren auch, dass Google weder den Code des Modells noch dessen Gewichte, also die Stärke der Verbindung zwischen den Neuronen des Netzes, veröffentlicht hat. Der Konzern selbst begründet dies mit "Sicherheitsauswirkungen bei unkontrollierter Verwendung eines solchen Modells im medizinischen Bereich" und beruft sich auf einen "verantwortungsvollen Umgang mit Innovationen", den man gemeinsam mit Partnern, der Forschungsgemeinschaft und Regulatoren weiter ausarbeiten müsse.

Sollte der AI Act der EU wie geplant verabschiedet werden, bleibt dem Konzern nichts anderes übrig. Denn der Einsatz großer Sprachmodelle im klinischen Betrieb würde dann mit an Sicherheit grenzender Wahrscheinlichkeit als "Hochrisiko-Anwendung" behandelt und entsprechend reguliert werden.

(wst)