Ontologien in der Medizin: Struktur und Erstellung

Über den Aufbau und die Herausforderungen von Ontologien und Terminologien am Beispiel der Medizin.

In Pocket speichern vorlesen Druckansicht 5 Kommentare lesen
Bibliothek mit einem aufgeschlagenen Buch, in dem ein Stethoskop liegt.

(Bild: Chinnapong/Shutterstock.com)

Lesezeit: 14 Min.
Von
  • Dr. André Sander
Inhaltsverzeichnis

Die Bausteine von Ontologien sind Terminologien, also Sammlungen von Fachbegriffen in einer bestimmten Domäne (die "Fachsprache"). Wichtig ist hierbei, dass ein "Begriff" im terminologischen Sinne nicht ein einzelnes Wort, sondern ein Konzept im Sinne einer gedanklichen Einheit ist. Ein solcher Begriff kann mehrere Beschreibungen (auch Label oder Term genannt) haben. Das ist gerade in der Medizin besonders hilfreich, da es neben lateinischen oft auch deutsche, griechische und umgangssprachliche Bezeichnungen gibt. Der medizinische Begriff "Mumps" (aus dem Englischen) kann eben auch als "Ziegenpeter" (Deutsch), "Salivitis epidemica" (Latein) oder "(Bauern)Tölpel" (umgangssprachlich) bezeichnet werden.

Eine Ontologie beschreibt nun die Beziehungen zwischen den Begriffen einer Terminologie. Wenn ein Arzt den Begriff "Mumps" hört, dann formt sich gedanklich ein kontextueller Raum, in dem die Symptome für Mumps (Ohrspeicheldrüsen geschwollen), möglichen Therapien (fiebersenkende Wirkstoffe), Risikofaktoren (Immunsuppression), Begleiterkrankungen (Pankreatitis, Anämie) und Ähnliches enthalten sind. Dieses verbundene Wissen wird in einer Ontologie abgebildet.

Dazu werden sogenannte "Deskriptive Logiken" (DL) benutzt. Diese formalisieren die Abbildung des Wissens und ermöglichen so am Ende eine algorithmische Benutzung, wie zum Beispiel das logische Schlussfolgern. Deskriptive Logiken sind eine Gruppe von formalen Logik-Sprachen, die unterschiedliche Ausdrucksstärken besitzen, also unterschiedliche Aussagen abbilden können. Die Sprachen werden in drei Gruppen eingeteilt:

  • AL: attributive Sprachen,
  • FL: Frame-basierte Sprachen
  • EL: existentielle Sprachen

Allen Sprachen ist gemein, dass zumindest basale logische Ausdrücke wie "oder" und "es existiert", unterstützt werden. Erweitert man eine dieser Sprachen um weitere Merkmale, dann werden diese als Buchstabe codiert und an die Basissprache angehängt. Die Möglichkeit, Begriffe mit "und" zu verknüpfen, wird etwa mit "U" bezeichnet. Können Hierarchien abgebildet werden, so würde man ein "H" anfügen. Eine Sprache "ALCUI" (abgekürzt als "SUI") ist also eine attributive Sprache, mit der zusätzlich "und" (U), "nicht" (C) und sogenannte inverse Eigenschaften (I) abgebildet werden können.

Letztere stellen eine interessante Möglichkeit dar, Fragen umzudrehen: Ein Knochen kann brechen, aber was kann (noch) alles brechen? Wichtige Erweiterungen sind außerdem Kardinalitäten (N,Q – zur Abbildung von "Hexadaktylie ist eine Hand mit sechs Fingern") und hierarchische Rollen (H – zum Beispiel Haarausfall ist eine häufige Nebenwirkung von Betablockern und eine häufige Nebenwirkung ist eine Nebenwirkung, somit ist Haarausfall eine Nebenwirkung von Betablockern). Die Syntax, mit der die Elemente der Sprache ausgedrückt werden, dürfte aus dem Informatikstudium bekannt sein:

∀ (für alle), ∃ (es existiert), ∪ (oder), ∩ (und) und einige weitere.

Als abschließendes Beispiel sei hier noch eine mögliche, formale Definition von Mumps genannt:

Mumps ≡ ∃Auslöser.MumpsVirus ∩ ∃Pathologie.Infektion

Mumps liegt also genau dann vor, wenn eine Infektion mit einem Mumpsvirus vorliegt.

Definition des Begriffs "Mumps" in SNOMED CT

(Bild: SNOMED 2024 International)

In der Praxis werden Ontologien in der Regel mit der Ontology Web Language (OWL) definiert und ausgetauscht und können auf dieser Basis mit Open Source Tools bearbeitet werden. In der Medizin hat sich zudem der OBO-Standard etabliert, in dem die Open Biomedical Ontologies ursprünglich definiert wurden.

Es gibt circa eintausend medizinische Ontologien, die mehr oder weniger formal definiert sind – also zumindest im OWL oder OBO Format vorliegen.

Viele Ontologien sind auf Sub-Domänen spezialisiert und bilden nur bestimmte Teile der Medizin ab. Inhaltliche Überschneidungen können dabei als Perspektiven aufgefasst werden, da die ontologische Modellierung unterschiedliche Aspekte abbildet. Das Zusammenführen dieser Informationen erweitert den inhaltlichen Kontext ungemein, erfordert allerdings teils komplexe Werkzeuge, die in der Lage sind, Begriffe unterschiedlicher Ontologien aufeinander abzubilden (sogenannte Terminologieserver).

Name Domäne Begriffe
[in Tsd.]
SNOMED CT
Systematized Nomenclature of Medicine Clinical Terms
Alle Bereiche der Medizin bis hin soziodemographischen Aspekten 400
LOINC
Logical Observation Identifiers Names and Codes
Vital-, Labor-, und Mess-werte (bis hin zu Geräten) 285
FMA
Foundational Model of Anatomy
Anatomie 105
GO
Gene Ontology
Gene 51
RADLEX
Radiology Lexicon
Radiologie/Befundung 45
HPO
Human Phenotype Ontology
Phänotypisierung 21
ORPHA/ORDO
Orphanet Rare Disease Ontology
Seltene Erkrankungen 15

Die Vorteile bei der Anwendung von regelbasierter KI auf Basis von Ontologien liegt auf der Hand: das "Training" findet in Form einer manuellen Definition statt und wird von Menschen durchgeführt, das heißt, das Trainingsmaterial selbst ist im besten Fall ein einzelnes Lehrbuch. Dieser Vorteil wird insbesondere dann deutlich, wenn man sich vor Augen hält, dass in der Medizin viele Diagnosen selten vorkommen. Die spontane Creutzfeld-Jakob-Erkrankung dürfte in Deutschland pro Jahr keine zehnmal diagnostiziert werden – einen machine learning Algorithmus zur Erkennung dieser Diagnose zu trainieren ist somit äußerst schwierig. Ähnlich stellt es sich mit pathogenen Bakterien dar: prozentual gesehen sind nur wenige der bekannten Arten für die Mehrzahl aller bakteriellen Infektionen verantwortlich.

In einer Ontologie spielt es keine Rolle, ob ein enthaltener Begriff häufig oder selten vorkommt. Zudem arbeiten die Algorithmen transparent und die Ergebnisse können so visualisiert werden, dass sie jederzeit nachvollziehbar sind. Einzelne Fehler in der Ontologie können gezielt korrigiert werden, ohne dass das gesamte System aktualisiert bzw. überarbeitet werden muss. Aber es gibt auch Nachteile: Das menschliche Training ist zeitaufwändig, teuer und bis zu einem gewissen Grade subjektiv. Außerdem können spezifische Fehler auftreten, die eine Anwendung von (Inferenz-)Algorithmen unmöglich machen: Zirkelschlüsse führen zu Endlosschleifen und widersprüchliche Aussagen zu ungewollten Abbrüchen.

Die Erstellung einer Ontologie ist ein komplexer, intellektuell anspruchsvoller und keineswegs trivialer Prozess. Zentraler Baustein einer Ontologie ist das sogenannte "Concept-Model", das explizit definiert werden muss und sich nicht aus der Definition des Wissens ergeben sollte. Im Concept-Model ist festgelegt, welche (semantische) Rollen verwendet werden dürfen und wann eine vollständige Modellierung bzw. Definition eines Begriffs gegeben ist.

Im folgenden eine Reihe von typischen und teilweise überschneidenden Problemen, die bei der Erstellung von Ontologien beachtet werden müssen:

"Medicine is big and complicated", schrieb Alan Rector Anfang der 2000er-Jahre. Und das spiegelt sich hauptsächlich in den knapp 400.000 Begriffen in SNOMED CT wider, die mit über 1,5 Millionen Relationen untereinander verbunden sind. Sicherlich sind die gut 1 GB großen Rohdaten für heutige Computersysteme keine allzu große Herausforderung – aber die Algorithmen sind es, die auf solch großen Netzen effizient und schnell arbeiten müssen. Auch die Pflege von derart großen Systemen wird extrem aufwändig: Die Effekte von Änderungen ziehen sich teilweise über Hunderte bis Tausende von Begriffen hin.

Auf welcher Ebene soll eine Terminologie beziehungsweise Ontologie enden? Beim Menschen wird die Physiologie typischerweise bis zur Ebene der Proteine und Moleküle betrachtet und erstreckt sich im Rahmen der Biochemie bis tief in die Chemie selbst. Bis wohin sollte man also Zusammenhänge abbilden? In SNOMED CT werden viele Substanzen und deren Wirkung abgebildet, aber keine weiteren Zusammenhänge, wie Indikation oder Kontraindikation. Man gelangt so schnell in Bereiche, die abseits der Humanmedizin liegen.

Betrachtet man beispielsweise Zoonosen, also Krankheiten, die zwischen Mensch und Tier wechseln können, dann müssen die entsprechenden Wirte natürlich in die Terminologie aufgenommen werden. Aber ist es wichtig, auch deren Symptome zu beschreiben? Dafür gibt es sicherlich gute Gründe, denn das könnte möglicherweise die Diagnostik beim Menschen erleichtern. Eine klare Vorgabe für die Bandbreite einer Ontologie kann kaum gemacht werden. Die Granularität sollte sich vor allem an den Anwendungsfällen orientieren.

Medizinische Ausdrücke können mitunter recht komplex werden – das betrifft nicht nur die Ausdrücke und Benennungen selbst (zum Beispiel Oligoasthenoteratozoospermie), sondern vor allem die dahinterstehenden Begriffe. Die "Arterielle Switch Operation" beispielsweise, beschrieben mit drei sehr einfachen Wörtern, ist eine äußerst komplizierte Operation, bei der die Lungenarterie und die Aorta vom Herz abgetrennt und umgekehrt wieder angesetzt werden. Die "Whipple OP" ist definiert als "Partielle Duodenopankreatektomie mit Teilresektion des Magens (sowie der Gallenblase, des distalen Gallengangs und des Magenantrums)". Bereits in der alternativen Beschreibung wird es komplex. Solche Begriffe enthalten mitunter auch temporale und kausale Zusämmenhänge, die möglicherweise nicht innerhalb der Ontologie abgebildet werden können.

Mit beziehungsweise in Ontologien lassen sich Begriffe sowohl prä- als auch postkoordiniert abbilden. Beispielsweise besteht der Begriff "akuter Herzinfarkt" aus zwei Komponenten: der Diagnose und einem zugeordneten Attribut. Man kann nun den gesamten Begriff genau so einer Ontologie hinzufügen (präkoordiniert) oder man fügt die beiden einzelnen Komponenten hinzu und verbindet diese erst bei der individuellen Abbildung (postkoordiniert). Der Vorteil einer Postkoodinierung ist, dass deutlich weniger Begriffe aufgenommen werden müssen. Der Nachteil, dass die Abbildung eine spezielle Syntax erfordert (zum Beispiel "Expression Constraint Language").

Auch hier ein Negativ-Beispiel aus SNOMED CT: "Motor vehicle nontraffic accident involving fire starting in motor vehicle, except off-road motor vehicle, while in motion, not on public highway (event)". So ein Begriff gehört sicherlich nicht präkoordiniert in eine Ontologie. Ein guter Indikator ist die Frage: können dem Begriff semantische Rollen zugeordnet werden, die so nur für diesen Begriff gelten?

Die Hoffnung, dass der Einsatz von Ontologien zu einer universellen, semantischen Interoperabilität führt, ist verständlich, aber nicht erfüllbar. Jedem Begriff liegt eine formale Definition zu Grunde, die teils kulturell, teils juristisch und teils wissenschaftlich beeinflusst ist und somit nicht universell gilt. So können etwa Höchstdosen von Medikamenten von Land zu Land unterschiedlich sein und medizinische Definitionen gerade von neuen Krankheiten sind oft nicht einheitlich. Insbesondere bei der Definition einer Totgeburt unterscheiden sich viele Länder voneinander. Während Deutschland neben dem eigentlichen klinischen Tod das Geburtsgewicht (<500g) berücksichtigt, spielt in Ländern wie den USA oder Großbritannien auch der Zeitpunkt der Geburt (vor der 21. beziehungsweise 25. Schwangerschaftswoche) eine Rolle. In Russland werden gesunde Kinder, die innerhalb der ersten Lebenswoche sterben, zu den Totgeburten gezählt. Vergleichende Statistiken sind somit nur schwer und nicht auf Basis der reinen Terminologie möglich.

Generell stellt sich bei Ontologien die Frage, wie detailliert die jeweilige Domäne abgebildet werden soll. Oder anders gesagt, wie detailliert die Welt mit der jeweiligen Ontologie abgebildet werden kann. Ähnlich wie bei der Granularität und Bandbreite, ist es sinnvoll, auch Randgebiete der Medizin abzubilden – eben Tiere oder beispielsweise Pollen als Auslöser für Allergien. Aber welche Tiere sollten enthalten sein? Reicht die gemeine Hauskatze oder muss es auch eine Peterbald-Katze sein? Reichen ganz allgemein Birkenpollen oder braucht es die Himalayabirkenpollen?

Im Prinzip lässt sich diese Frage ganz einfach beantworten: Wenn es einen medizinischen Anwendungsfall gibt, dann muss der Begriff enthalten sein. Wenn sich Allergien durch Himalayabirkenpollen von denen durch unspezifische Birkenpollen unterscheiden, sollte der Begriff aufgenommen werden.

Bei der Detaillierung sollte auch beachtet werden, dass man für eng gefasste Domänenkontexte spezielle Terminologien verwenden kann. So gibt es in der Medizin die Foundational Model of Anatomy Ontology (FMA). Diese bildet die Anatomie des Menschen bis ins kleinste Detail ab (jeder Zahn hat eigene Nerven und Blutgefäße mit eigenen Namen). Ein weiteres Beispiel ist die GeneOntology, in der sämtliche Gene beschrieben sind und viele weitere hochspezialisierte Ontologien.

Schließlich stellt das "Concept-Model" einer Ontologie einen weiteren Rahmen für die Detaillierung dar. Wenn darin die Rolle "Hat Farbe" existiert, dann sollte diese auch gepflegt werden. Das kann einen enormen Arbeitsaufwand bedeuten, zu einer hohen Komplexität führen und am Ende wenig Nutzen haben. Deshalb muss bereits bei der Entwicklung des Concept-Models klar sein, wofür die Ontologie eingesetzt werden soll.

Nicht alles gehört in eine Ontologie​
Pommes mit Mayo und Ketchup

Sellbst "Pommes Schranke" lässt sich mit SNOMED CT abbilden.

(Bild: Generiert mit playground.com durch André Sander)

Wer sich ein wenig in großen Ontologien herumtummelt, der findet Erstaunliches: in SNOMED CT sind beispielsweise nicht nur hunderte von Waffen enthalten (bis hin zu thermonuklearen Bomben), sondern auch knapp 2000 Fischarten – sogar Tiefseefische, die äußerst selten mit Menschen in Kontakt kommen dürften. Außerdem gibt es neben UFOs auch mindestens sieben Begriffe zu verschiedenen Arten von Wohnmobilen. Auch wenn Wohnmobile derzeit voll im Trend liegen, ist das medizinisch nur schwer nachvollziehbar. Anders sieht es mit soziodemographischen Begriffen aus, die zunehmend an Bedeutung für Algorithmen gewinnen. Man kann sich allerdings vorstellen, was es bedeutet, wenn Domänen wie Einkommen, Bildung, Freizeitgestaltung (also doch Wohnmobile!) usw. in eine Ontologie integriert werden.

Eng verknüpft mit der Ausdrucksfähigkeit einer Ontologie sind Abnormalitäten, die abgebildet werden müssen. So kommt es bei angeborenen Krankheiten vor, dass Öffnungen verschlossen sind (Atresien) oder anatomische Strukturen gar nicht ausgebildet sind und somit fehlen (Agenesien). Des Weiteren finden sich viele Abnormalitäten, wie die Dextrokardie, bei der das Herz auf der rechten Körperseite platziert ist, Ektopien, bei denen sich Organe außerhalb des vorgesehenen Platzes befinden, oder zusätzliche Körperteile, wie die Hexadaktylie. Je nach verwendeter DL lassen sich diese Besonderheiten mehr oder weniger gut abbilden.

Darstellung einer fehlenden Rippe in SNOMED CT

(Bild: André Sander)

Ähnlich wie im vorherigen Punkt erwähnt, sind Idiome "menschliche Besonderheiten". Sie beziehen sich jedoch nicht auf den Gegenstand, der beschrieben werden soll, sondern auf den Anwender, der den Gegenstand beschreibt. Gemeint sind Benennungen, die umgangssprachlich und in der Regel falsch verwendet werden. Das bekannteste Beispiel ist die "Blinddarmentzündung", die synonym zur "Appendizitis" verwendet wird. Allerdings ist der "Blinddarm" eben nicht der "Appendix", sondern wird vom Mediziner als "Caecum" bezeichnet, dessen letzter Teil der "Appendix" ist. Dieser wird wiederum auf Deutsch als "Wurmfortsatz" bezeichnet. Insofern wäre die korrekte deutsche Bezeichnung für "Appendizitis" "Wurmfortsatzentzündung".

Ein weiteres klassisches Beispiel, von Alan Rector angeführt, ist die "Endokrine Operation", die vom Mediziner als Operation an den endokrinen Organen verstanden wird. Nun gehören allerdings sowohl die männlichen als auch die weiblichen Reproduktionsorgane zu den endokrinen Organen. Jedoch würde kein Mediziner bei solchen Operationen von "endokrinen Operationen" sprechen. SNOMED CT verhält sich etwas unentschlossen und zählt die Operationen der weiblichen Reproduktionsorgane (Ovarien) zu den "endokrinen Operationen", die der männlichen (Hoden) jedoch nicht.

Einige Idiome sind sicherlich auch kulturell bedingt und damit regional begrenzt – das macht eine Abbildung in Ontologien weitestgehend unmöglich. Dennoch erreicht man eine Akzeptanz bei den Anwendern nur dann, wenn auch solche Besonderheiten Berücksichtigung finden.

Hinweis: In Teil 3 dieser Reihe werden einige typische Anwendungsfälle von Terminologien und Ontologien beschrieben.

Über den Autor: Dr. André Sander promovierte an der Charité im Bereich Medizinwissenschaften und beschäftigt sich seit mehr als 25 Jahren mit medizinischen Terminologien und Ontologien. Bei ID Information und Dokumentation ist er CTO, Prokurist und Mitglied der Geschäftsführung.

(mack)