10. Deutscher Interoperabilitätstag: Sorgt KI für das Ende von Standards?
Darüber, welchen Einfluss KI auf die Dokumentation und Interoperabilitätsstandards hat, diskutierten die Teilnehmer auf dem Deutschen Interoperabilitätstag.
Dr. Carina N. Vorisek von der Charité auf dem 10. Deutschen Interoperabilitätstag.
(Bild: heise medien)
Einer der Schwerpunkte des zehnten Deutschen Interoperabilitätstags (DIT) liegt auf dem Thema "Künstliche Intelligenz meets/eats Interoperabilitätsstandards". Experten diskutierten dort auch über Chancen und Grenzen von KI-Systemen in der klinischen Praxis. Dr. Kai U. Heitmann von HL7 Deutschland betonte zu Beginn die Notwendigkeit strukturierter Daten: Nur wenn Medikamente, Befunde und Diagnosen standardisiert vorliegen, könne KI zuverlässig arbeiten. Fehlende Struktur führe dazu, dass Assistenzsysteme falsche Therapieentscheidungen treffen könnten. Interoperabilitätsstandards wie HL7 FHIR und SNOMED CT seien entscheidend, um sichere und nachvollziehbare KI-Anwendungen im Gesundheitswesen zu ermöglichen.
Dr. Carina N. Vorisek von der Berliner Charité lenkte den Fokus auf die strukturellen Probleme hinter vielen KI-Modellen in der Medizin. "Das soll eben heute auf keinen Fall ein KI-Bashing sein […]. Bias hat da so eine ganz negative Note, dass wir sagen, dieser Bias, den wir eigentlich nicht wollen, der stigmatisiert. […] Und es gibt aber auch diesen positiven Bias, dass wir Unterschiede reinbringen und eben verstehen, welche Personen anders auf Therapien und Diagnosen ansprechen und weshalb", erklärte sie. Studien zeigten, dass Frauen, Kinder, ältere Menschen und Personen aus Ländern mit geringerem Einkommen in vielen medizinischen Daten unterrepräsentiert sind. Das führe dazu, dass Algorithmen für diese Gruppen schlechtere Ergebnisse liefern. Ein faires KI-System müsse Diversität abbilden und therapeutische Unterschiede berücksichtigen.
Vorisek stellte auch eine Studie vor, in der untersucht wurde, wie gut große Sprachmodelle medizinische Daten nach SNOMED CT kodieren können. Das Ergebnis war, dass menschliche Experten weiterhin präziser arbeiten. Kein Modell habe dabei die Qualität einer menschlichen Kodierkraft erreicht. Viele hätten sogar fiktiven Code erzeugt, bemängelte Vorisek. Heitmann warnte vor blindem Vertrauen in KI-Systeme. Medizinische KI brauche Standards, um medizinische Daten korrekt, sicher und nachvollziehbar zu verarbeiten. Sie soll Mediziner nicht ersetzen, sondern helfen, bessere Medizin für alle zu machen und dabei fair, verlässlich und transparent sein.
Videos by heise
"Braucht es FHIR noch?"
Dr. Philipp Daumke von der Averbis GmbH stellte eine provokante These in den Raum: "Mit den LLMs verstehen Computer erstmal die Semantik. Und so hart es ist, damit wird FHIR an der Stelle einfach nicht mehr notwendig". Er zeichnete die Entwicklung der letzten 20 Jahre nach: von regelbasierten Expertensystemen über Ontologien und Big‑Data‑Methoden bis zu heutigen generativen Modellen. LLMs, so Daumke, "verstehen" medizinische Bedeutung direkt. Strukturiert man dieselben Informationen anschließend nochmals, entstünden eher Fehlerquellen als Mehrwert. Er kritisierte dabei, dass es nicht den einen FHIR‑Standard, sondern eine Vielzahl widersprüchlicher Profile gebe, was die Komplexität erhöhe. KI könne Inhalte jedoch situativ in jedes benötigte Format umwandeln – ob Arztbrief, Patienten‑App oder Forschungsdatenbank.
"Struktur bleibt die Basis"
Dem hielt Dr. René Hosch vom Institut für Künstliche Intelligenz in der Medizin (IKIM) des Universitätsklinikums Essen entgegen, dass ohne strukturierte Grundlagen keine Forschung, keine Skalierung und keine Nachvollziehbarkeit möglich sei. Das Klinikum Essen betreibt eine der größten FHIR‑Implementierungen Europas mit über zwei Milliarden Ressourcen – eine Basis, auf der Forschung, Versorgung und Qualitätssicherung erst möglich werden.
Hosch zeigte unter anderem, wie die automatische Erzeugung von FHIR aus Freitexten gelingt, die Datenanalyse auf FHIR‑Basis und ein semantisches Such‑Dashboard, das Ärzten klinische Dokumente per KI‑Abfrage zugänglich macht. Er sieht Standards als Möglichkeit, "die unstrukturierte Welt weiter zu strukturieren". KI könne helfen, Texte zu strukturieren – doch erst standardisierte Formate machten die Ergebnisse interoperabel, validierbar und prüfbar. Er plädierte für "Small‑Language‑Models", spezialisierte Systeme für klar definierte medizinische Anwendungsfälle, die auch mit knapper Hardware betrieben werden können: Seiner Ansicht nach seien keine Milliarden‑Modelle notwendig, sondern praxistaugliche Modelle mit klinischem Fokus.
Agenten als Brücke zwischen Mensch und Maschine
Julius Severin vom dänischen Unternehmen Corti, das KI‑gestützte Sprach‑ und Dokumentationssysteme für den Gesundheitssektor entwickelt, verwies zu Beginn seines Beitrags darauf, dass medizinisches Personal rund 35 Prozent seiner Arbeitszeit für Dokumentation aufbringe. Ursprünglich hat Corti Notrufzentralen bei der Schlaganfall‑ und Herzinfarkterkennung unterstützt und sich inzwischen auf die automatische Gesprächsaufzeichnung, Faktenerkennung und Kodierung medizinischer Inhalte fokussiert. Corti will eine kontrollierbare Zwischenebene schaffen, bei der der Mensch im Loop bleibt und die Kontrolle behält.
Zwischen Transkript und fertigem Bericht werden zunächst "atomare Fakten", also elementare Informationseinheiten, extrahiert, die maschinenlesbar, aber menschlich überprüfbar sind. Darauf aufbauend können spezialisierte Agenten Endaufgaben übernehmen – etwa Codierung nach ICD oder SNOMED oder das Befüllen digitaler Formulare über FHIR‑Schnittstellen. Diese modularen, nachvollziehbaren Systeme sollen nach Severin "den Spagat zwischen Automatisierung und Verantwortung" schaffen.
Insgesamt waren sich die Teilnehmer einig, dass KI den klinischen Alltag verändern wird, was unter klaren Rahmenbedingungen geschehen sollte. "Ab zehn gleichzeitigen Anfragen reicht keine A100 im Keller mehr", so Daumke. Dann werde bei Averbis auf Azure‑Dienste mit europäischer Datenhaltung oder deutsche Cloud‑Partner wie Stackit zurückgegriffen. On‑Premise‑Varianten würden schnell an technische Grenzen stoßen, sobald viele Nutzer parallel arbeiten. Als sehr wichtig bezeichnete Hosch in diesem Kontext auch die Entwicklung, dass lokal laufende KI bereits "relativ brauchbare Ergebnisse" liefere.
Bei der Frage nach großen oder kleinen Modellen verteidigte Hosch spezialisierte Small Language Models, da sie für mehr Effizienz, Datenschutz und Kontrolle sorgen. Dagegengehalten wurde, dass Sprachmodelle kommerzieller Anbieter oftmals bessere Ergebnisse liefern, man aber hybride Strategien nutzen könne – etwa für Vorentscheidungen, welches Modell für eine Aufgabe zuständig ist. Wichtig sei daher vor allem die "Orchestrierung", wonach mehrere Modelle oder Agenten zusammenarbeiten und Informationen austauschen. Konsens war auch, dass Standards wie FHIR nicht an Wert verlieren, sondern ihre Rolle verändern. Wo früher jedes Datenfeld manuell zugeordnet werden musste, können heute KI‑Modelle Inhalte erkennen, strukturieren und im passenden Standard ablegen.
(mack)