Koloskopie-Studie: KI-Polyperkennung hilft erfahrenen Ärzten kaum
Eine randomisierte Studie in deutschen Privatpraxen zeigt: KI-gestützte Polyperkennung verbessert die Adenomdetektionsrate erfahrener Gastroenterologen nicht.
EndoMind markiert erkannte Adenome bei einer Koloskopie mit einem blauen Rechteck.
(Bild: Uniklinikum Würzburg)
Bei der Darmkrebsvorsorge mittels Koloskopie sollen KI-Systeme helfen, mehr Polypen zu entdecken. Eine neue randomisierte kontrollierte Studie aus Deutschland kommt nun zu einem ernüchternden Ergebnis: In der klinischen Praxis erfahrener Gastroenterologen bringt computergestützte Polyperkennung keinen messbaren Vorteil.
Die multizentrische Studie, als Open Access im Fachjournal npj Digital Medicine publiziert, untersuchte das am Universitätsklinikum Würzburg entwickelte EndoMind-System in fünf deutschen Privatpraxen. Dieses Design wurde gewählt, weil ein Großteil der Screening-Koloskopien in Deutschland ambulant in gastroenterologischen Praxen und nicht in akademischen Zentren durchgeführt werde. Zwischen November 2021 und November 2022 wurden 914 Patienten zufällig einer Untersuchung mit oder ohne KI-Unterstützung zugewiesen. Alle zehn beteiligten Untersucher verfügten über mehr als zehn Jahre Erfahrung und hatten jeweils über 10.000 Koloskopien durchgeführt.
Das zentrale Ergebnis: Die sogenannte Adenomdetektionsrate (ADR) – der Anteil der Untersuchungen, bei denen mindestens ein Adenom gefunden wird – lag in der KI-unterstützten Gruppe bei 34,5 Prozent, in der Kontrollgruppe bei 32,9 Prozent. Die Differenz von 1,6 Prozentpunkten war statistisch nicht signifikant (p = 0,656). Auch sämtliche sekundären Endpunkte zeigten laut der Studie keine bedeutsamen Unterschiede: Weder die allgemeine Polypdetektionsrate noch die Erkennungsrate für serratierte Läsionen, die Zahl der Adenome pro Untersuchung oder die Rückzugszeit des Endoskops wichen zwischen beiden Gruppen ab.
EndoMind: Technik auf Augenhöhe mit kommerziellen Systemen
Das eingesetzte EndoMind-System nutzt eine YOLOv4-Architektur zur Echtzeitobjekterkennung, die mit über 506.000 manuell annotierten Bildern trainiert wurde. Das System markiert erkannte Polypen in Echtzeit mit einer Bounding Box, wobei die mediane Zeit bis zur ersten Erkennung bei 130 Millisekunden liegt. Die Rate falsch-positiver Meldungen betrug lediglich 2,2 Prozent. In einer vorangegangenen Pilotstudie hatte EndoMind eine Performance auf dem Niveau kommerzieller CADe-Systeme (Computer-Aided Detection) gezeigt. Technisch sollte das System alle Voraussetzungen erfüllen, sodass der fehlende klinische Effekt sich nicht auf mangelhafte Software zurückführen lasse.
Trotz des unerwarteten Ergebnisses sagte Alexander Hamm, Professor für Digitale Transformation in der Gastroenterologie am Universitätsklinikum Würzburg und Mitautor der Studie: „Wir sind glücklich darüber, dass wir mit dieser Arbeit zeigen konnten, dass anhand von ambulanten Daten aus Deutschland in einem universitären Setting eine KI für die Darmkrebsvorsorge gebaut werden konnte, welche dort getestet wurde, wo Vorsorge jeden Tag durchgeführt wird: in gastroenterologischen Schwerpunktpraxen.“
Videos by heise
Warum die KI nicht weiterhilft
Für das Ausbleiben eines signifikanten Effekts identifizieren die Autoren mehrere Faktoren. Erstens lag die beobachtete ADR in der Kontrollgruppe mit 32,9 Prozent deutlich über den 25 Prozent, die bei der Studienplanung angenommen worden waren. Je besser die Ärzte ohne KI sind, desto weniger Spielraum bleibt für eine Verbesserung – ein Deckeneffekt. Zudem waren die beteiligten Ärzte ausnahmslos sehr erfahren. Die Studie sei für eine ADR-Verbesserung um 9 Prozentpunkte ausgelegt gewesen; um einen – sofern vorhandenen – beobachteten kleinen Effekt statistisch nachweisen zu können, wären nach Schätzung der Autoren über 6.000 Patienten pro Gruppe nötig gewesen.
Diese Ergebnisse reihen sich in ein wachsendes Korpus kritischer Befunde ein. Eine umfangreiche Meta-Analyse aus dem Jahr 2024, die 43 randomisierte kontrollierte Studien auswertete, fand zwar eine statistisch signifikante ADR-Erhöhung durch KI – bewertete die Evidenzqualität aber als „sehr niedrig“ und verwies auf erheblichen Publikationsbias. Auch aktuelle RCTs aus Japan und den USA zeigten bei erfahrenen Untersuchern keine signifikanten Unterschiede. Dementsprechend spricht die amerikanische Gastroenterologenvereinigung AGA in ihrer aktuellen Leitlinie keine Empfehlung für CADe-Systeme aus, während die europäische Fachgesellschaft ESGE lediglich eine „schwache Empfehlung“ ausspricht.
Risiko Deskilling
Zur differenzierten Einordnung dieser Ergebnisse tragen zwei Beiträge bei, die heise online bereits veröffentlicht hat. In einem Interview mit heise online schilderte Alexander Hann bereits im vergangenen Jahr die Herausforderungen der KI-Polyperkennung unter Real-Life-Bedingungen. Dabei betonte er die Kluft zwischen vielversprechenden Studienergebnissen aus akademischen Zentren und dem Praxisalltag erfahrener niedergelassener Ärzte.
Besonders brisant wird die Debatte durch eine im Fachjournal The Lancet Gastroenterology & Hepatology publizierte Studie zum sogenannten Deskilling-Effekt, die heise online ebenfalls thematisiert hat. Darin untersuchten Forschende an vier medizinischen Zentren in Polen 19 erfahrene Endoskopiker – alle mit mindestens 2.000 Koloskopien und im Schnitt 28 Jahren Berufserfahrung. Nach nur drei Monaten regelmäßiger KI-Nutzung sank die ADR dieser Ärzte ohne KI-Unterstützung von 28,4 auf 22,4 Prozent – ein statistisch signifikanter Rückgang um 6 Prozentpunkte. 15 der 19 Ärzte zeigten eine Verschlechterung. Die Autoren sprachen von einer „stillen Erosion fundamentaler Fähigkeiten“.
Auch das Team um Alexander Hann untersucht derzeit intensiv den „Nutzen oder Schaden [der KI-Unterstützung] bei Kolleginnen und Kollegen, welche sich in der Ausbildung befinden“.
(vza)