KI-Sprachmodelle in der Medizin: Über Forschung mit BioGPT, BioMedLM und mehr

08.06.2023 14:21 Uhr Christiane Schulzki-Haddouti

Medical,Technology,Network,Connection,Concept.,Doctor,Working,On,Laptop,Computer, — (Bild: TippaPatt/Shutterstock.com)

KI-Sprachmodelle bringen die Gesundheitsversorgung voran. Doch die Sicherheitsdiskussion steht noch am Anfang, sagt Digital-Health-Experte Wolfgang Nejdl.

KI-Sprachmodelle können die Patientenversorgung verbessern, sagt Wolfgang Nejdl, Direktor des L3S Forschungszentrums an der Leibniz Universität Hannover und Mitglied der Plattform Lernende Systeme (PLS). Er erwartet deutliche Fortschritte in der Gesundheitsversorgung. Forschungsmodelle wie BioGPT und BioMedLM brauchen jedoch Safeguards, betont Nejdl im Gespräch mit heise online.

Sie forschen am Leibniz AI Lab an Therapien für Leukämie seit 2020. Was machen Sie genau?

Wolfgang Nejdl: Wir arbeiten an medizinischen Anwendungsfälle – Use Cases – gemeinsam mit der Medizinischen Hochschule Hannover MHH. Im Use Case "Leukämie" nutzen wir vorwiegend Genomdaten und klinische Daten von Kindern, in anderen Projekten auch Bilddaten oder Daten aus öffentlich zugänglichen Datenbanken, etwa zu Protein-Interaktionen. Wir haben auch Zugriff auf Primärdaten aus anderen Kliniken in Europa, über die Netzwerke der MHH.

Wie verbessert sich damit die Patientenversorgung?

Im Leukämie-Use-Case geht es darum, die kranken Kinder in unterschiedliche Risikogruppen einzuordnen, damit sie die richtige Therapie erhalten. Bei den einen muss man eine stärkere Therapie wählen, damit der Krebs geheilt wird. Bei manchen reicht es, wenn ich leichtere Optionen wähle. Wir konnten hier gemeinsam mit unseren medizinischen Kolleginnen ein System entwickeln, dass das besser macht, als das bisher der Fall war – insbesondere bei Krankheitsfällen, deren Verlauf bisher nicht klar vorhersagbar war.

Welche Rolle können KI-Sprachmodelle wie ChatGPT in der Gesundheitsversorgung spielen?

Sprachmodelle können Texte gut zusammenfassen oder Fragen zu Texten beantworten. Also überall dort, wo in der Medizin Texte wie Arztbriefe, Diagnose-Zusammenfassungen oder wissenschaftliche Paper genutzt werden, kann es sinnvoll sein, auf einem Sprachmodell aufzubauen.

Könnte ChatGPT zum Beispiel 40 Arztbriefe zusammenfassen und für die Patientinnen und Patienten in einfache Sprache übersetzen?

Einfache Sprache, das geht auf jeden Fall. Bei den Zusammenfassungen müsste man nochmal nachprüfen, ob wirklich alle relevanten Aspekte korrekt erfasst wurden und nichts dazu erfunden wurde, was auch bei den besten Sprachmodellen noch passieren kann.

Wie könnte sich die Patientenversorgung damit konkret verbessern?

Im Krankenhaus hat ein Arzt für die Visite nur wenige Minuten Zeit. Der Patient könnte nun ergänzend auch einen Chatbot fragen, der einen lokalen Zugriff auf die Arztbriefe oder auch auf die wissenschaftliche Literatur hat. Das System könnte auch Rückfragen beantworten und sich damit sozusagen auch noch mal mehr Zeit nehmen.

Wie zutreffend sind die Antworten?

Die Dialoge im kürzlich erschienenen Buch von "The AI Revolution in Medicine: GPT-4 and Beyond" zeigen Antworten, die oft schon vergleichbar waren mit den Antworten von guten Ärzten. Aber sie zeigen auch, dass ein alleiniges Gespräch mit einem Chatbot auf keinen Fall das Gespräch mit einem Arzt ersetzen kann.

BioGPT von Microsoft hat sich auf medizinische Texte spezialisiert. Google arbeitet an Med PaLM. Was erwartet uns hier?

Deutlich kleinere Sprachmodelle wie BioGPT oder BioMedLM von der Stanford University sind spezifisch auf medizinische Texte trainiert, wobei PuBMed mit etwa 30 Millionen Abstracts und 6 Millionen Volltext-Artikeln zu medizinischen Texten das Trainingsmaterial geliefert hat.

Das hat den Vorteil, dass BioMedLM sich in medizinischer Fachliteratur gut auskennt und sogar inzwischen den US-amerikanischen Zulassungstest für Mediziner besteht. Es ist auf jeden Fall noch verbesserungsfähig, aber es kann viele medizinische Fragen ausreichend gut beantworten.

Suchmaschinen wie BingChat könnten für Ärzte medizinisches Dossier erstellen

Wo sehen Sie das große Potenzial dieser Sprachmodelle?

Das Potenzial liegt in der Zusammenfassung von medizinischer Literatur, denn kein Arzt hat die Zeit, sich laufend einen guten Überblick zu verschaffen. Wir können uns also schon bald mit einem Sprachmodell plus Suchmaschine wie BingChat zu einer Fragestellung eine Art Dossier zu wissenschaftlichen Artikeln aus der medizinischen Meta-Datenbank PubMed erstellen lassen – samt den Literaturreferenzen. Noch ist das so nicht möglich, aber das ist Stand aktiver Forschung.

Das heißt, diese Verknüpfung zu den Referenzen gibt es bisher nicht?

BioGPT und BioMedLM sind Sprachmodelle, die mit einer Suchmaschine noch nicht gekoppelt sind. Für eine Nutzung, die eine Verifizierung des Outputs ermöglicht, müsste man also die Referenzierung auf die Quellen noch ermöglichen.

Auf welchem Stand ist BioGPT und welche Updates sind für die Zukunft geplant?

GPT-3 bringt nicht mehr, wenn man nicht mehr Text als Trainingsmaterial hat. Das heißt, mit den 30 Millionen Einträgen von PubMed kann ich ein sehr viel größeres Sprachmodell nicht richtig trainieren. Im schlimmsten Fall lernt es dann die Texte nämlich auswendig und kann nicht mehr generalisieren.

Wenn ich also das Modell von BioMedLM mit 2,7 Millionen Parametern vergrößern würde – und GPT-3 hat 175 Billionen Parameter –, dann wäre das sogar schädlich. Ein größeres Modell würde also nur Sinn machen, wenn deutlich mehr Daten hineingefüttert werden könnten.

Wie spielt das eben an den Start gegangene Forschungsdatenportal Gesundheit hinein? Wäre hier eine Kopplung an ein Sprachmodell möglich?

Viele dieser Primärdaten sind tabellarische Daten, auch Genomdaten werden so gespeichert. Das ist nichts, was ein Sprachmodell ad hoc auswerten könnte. Was als Sprache in dem Portal zur Verfügung steht, könnte mit einem Sprachmodell ausgewertet werden. Es ist aber eine interessante Forschungsrichtung, wie sich tabellarische Daten oder andere Daten zusammenfassen lassen könnten.

Man hat bereits mit AlphaFold [1] gesehen, wie gut die 3D-Struktur von Proteinen herausgefunden werden konnte. Diese Systeme nutzen Deep Learning Ansätze und können aus laufenden Experimenten lernen. Wenn ein solches KI-System aus den bereits erfolgten Experimenten lernen kann, kann es die Regelmäßigkeiten extrahieren und das auf anderen Molekülen übertragen, etwa bei Wirkstoffkandidaten. Im Labor können nicht alle Kandidaten durchprobiert werden, weshalb man sich normalerweise nur auf ein paar Kandidaten konzentriert, die ausgetestet werden. Mit einem KI-System lässt sich das besser hochskalieren.

Doch mit diesen Methoden lässt sich auch nach tödlichen Giftstoffen suchen.

Ich kann damit natürlich jetzt einerseits nach Wirkstoffen suchen, die auf eine bestimmte Krankheit zugeschnitten sind, aber ich könnte auch Stoffe finden, die tödlich sind. Das weiß der Algorithmus ja an sich nicht.

Kritikalitätseinstufung bestimmter KI-Anwendungen

Wäre eine Regulierung des Einsatzes aus Sicherheitsgründen notwendig?

Das ist sicherlich etwas, was man regulieren soll. Im Zuge der europäischen Diskussion zur KI-Verordnung wurde eine Kritikalitätseinstufung diskutiert, im Ergebnis wird diese Einstufung von der Anwendung abhängen. Bestimmte Anwendungen oder Anwendungsbereiche werden dann wohl als hochkritisch oder als zu verbieten gekennzeichnet.

Ein digitales Produkt lässt sich ja leicht reglementieren, aber müssten bei einem Sprachmodell nicht entsprechende Safeguards direkt implementiert werden?

Das stimmt. Darum bemühen sich jetzt Anbieter wie Microsoft oder Google hier viele Safeguards – Sicherheitsvorkehrungen – einzubauen, da das Modell viel zu viel gelesen hat und damit auch Dinge kennt, die es nicht wiedergeben soll. Daher wird das System so trainiert, dass es lernt, was es sagen darf und was nicht. Klar, das ist absolut notwendig.

Haben Sie getestet, ob BioGPT und BioMedML diese Safeguards haben? Es gibt ja auch Forschung in Virenlaboren, die dokumentiert wird und in PubMed veröffentlicht werden könnte.

In BioGPT und BioMedML sind solche Safeguards nicht enthalten. Ich kann diese Modelle alles fragen und erhalte die Antworten auf Basis der Trainingsdaten. Wenn es wissenschaftliche Artikel gibt, die den Bau von tödlichen Viren beschreiben, dann erhalte ich auch eine Antwort. Diese Modelle sind aber auch nicht für die allgemeine Nutzung verfügbar.

Wie nehmen Sie die wissenschaftliche Debatte zu diesen Safeguards im biomedizinischen Bereich wahr?

Dazu wird aktuell sehr viel diskutiert, teilweise auch ein bisschen alarmistisch, wie ich meine. Aber es ist in der Community, als auch in der Politik und in den Firmen klar, dass wenn ich ein Modell zur allgemeinen Nutzung freigebe, dass es Safeguards haben muss. Sonst ist es schädlich oder gefährlich.

Gibt es bereits Ansätze, um Modelle hier methodisch sauber zu prüfen?

Nein, im medizinischen Bereich ist dazu noch Arbeit notwendig. BioGTP ist gerade Ende 2022 als Forschungsmodell herausgekommen, BioMedLM wurde im Februar auch als Forschungsmodell veröffentlicht. Beide Modelle sind also jetzt nicht für den realen Einsatz etwa als Chatbot auf einem Ärzteportal gedacht: Erstens lassen sich die Referenzen noch nicht prüfen, zweitens müssten schädliche Antworten durch entsprechende Guardrails noch geblockt werden. Das heißt, beide Modelle befinden sich noch im Frühstadium der Entwicklung, bis zu einer allgemeinen Nutzbarkeit wird es noch dauern.

Wir haben jetzt im politischen Raum eine große Diskussion um die Bereitstellung von Gesundheitsdaten für die Sekundärforschung.

Prinzipiell finde ich das eine gute Entwicklung. Wir können ja auch nur darum mit den Patientendaten arbeiten, weil die Betroffenen hier ihre Einwilligung im Sinne eines "Broad Consent für die Forschung erteilt haben. Wenn das in Deutschland auf Basis der aktuell laufenden Initiativen noch leichter möglich ist, dann ist das gut.

Wie würde Ihre Forschung von diesen Plänen profitieren?

Ich kann eben besser medizinische Therapien entwickeln, wenn ich Zugriff auf mehr Daten habe. Auf der Basis von zehn oder hundert Patienten können wir keine allgemeinen gültigen Therapien entwickeln – das ist anders, wenn ich Zugriff auf Tausende oder Zehntausende habe.

(mack [2])

URL dieses Artikels:
https://www.heise.de/-9181108

Links in diesem Artikel:
[1] https://www.heise.de/news/AlphaFold-Deepmind-KI-ermittelt-3D-Struktur-fast-aller-bekannter-Proteine-7193356.html
[2] mailto:mack@heise.de