Wie Corona in den USA die Digitalisierung des Gesundheitswesens voranbringt

15.07.2021 12:00 Uhr Cat Ferguson

Corona-Teststation im Freien.

(Bild: Jakayla Toney / Unsplash)

Auch in Amerika fehlte bislang eine zentrale elektronische Krankenakte. COVID-19 macht den Bemühungen jetzt Beine. Was Deutschland lernen kann.

Während der gesamten Pandemie tat sich ein Spannungsfeld auf: Was weiß Wissenschaft wirklich und was kann sie der Bevölkerung mitteilen, wie sie sich am besten im Kampf gegen SARS-CoV-2 verhält? Zwar waren Forscherinnen und Forscher in der Lage, immer mehr über COVID-19 zu lernen – und das wohl sogar schneller als bei jeder anderen Krankheit in der jüngeren Geschichte. Allerdings gibt es diverse Dinge rund um das neue Coronavirus, die immer noch nur teilweise geklärt sind. Das betrifft fundamentale Erkenntnisse wie Verbreitung, Symptomatik und Anfälligkeit für das Virus, bei denen wir vieles wissen, aber auch vieles einfach noch nicht mit Bestimmtheit sagen können. Hinzu kommt die zentrale Frage, wie Erkrankte am besten behandelt werden sollten. [1]

Nirgendwo ist dieser Konflikt zwischen Wissen und Nichtwissen deutlicher geworden als in den USA, die zwar fast ein Fünftel ihres Bruttoinlandsprodukts für die Gesundheitsversorgung ausgeben, aber schlechtere Ergebnisse im Corona-Kampf erzielten als jedes andere reiche Land. Die Suche nach Antworten ist kompliziert, nicht nur, weil Wissenschaft ein hartes Geschäft ist, sondern auch, weil die amerikanische Gesundheitsversorgung aus einem Flickenteppich inkompatibler, archaischer Systeme besteht.

Wer darf Daten vorhalten?

Bundes-, bundesstaatliche und lokale Datenschutzgesetze überschneiden sich und widersprechen sich manchmal sogar. Medizinische Daten sind unübersichtlich, fragmentiert und von den Institutionen, die sie vorhalten, oft stark abgeschottet – sowohl aus Gründen des Datenschutzes als auch aufgrund der Tatsache, dass der Verkauf medizinischer Daten unglaublich profitabel ist und verhindert werden soll.

Aber der Zugriff auf Daten, die in diesen Silos gefangen sind, ist der einzige Weg, um Fragen rund um COVID-19 abschließend zu beantworten. Das ist der Grund, warum so viel wichtige Forschung außerhalb der USA durchgeführt wurde, in Ländern mit staatlichen Gesundheitssystemen. Dabei wird wohl nirgendwo mehr am Coronavirus geforscht als in Amerika. Einige der aussagekräftigsten Daten über Risikofaktoren für die COVID-Mortalität sowie Merkmale einer Long-COVID-Erkrankung stammen zum Beispiel aus Großbritannien. Dort haben Forscher des öffentlichen Gesundheitswesens Zugang zu Daten aus den Krankenakten von 56 Millionen NHS-Patienten.

Zu Beginn der Pandemie erkannte eine Gruppe von Forschern, die von den US National Institutes of Health (NIH) ihr Geld bekommen, dass viele Fragen zu COVID-19 nicht beantwortet werden können, ohne die Barrieren für den Datenaustausch zu überwinden. Also entwickelten sie einen Rahmen, um echte Patientendatensätze von verschiedenen Institutionen auf eine Weise zu kombinieren, die sowohl privatsphärenfreundlich als auch forschungsrelevant sein soll.

Das Ergebnis ist die National COVID Cohort Collaborative [3], kurz N3C, die medizinische Aufzeichnungen von Millionen von Patienten im ganzen Land sammelt, sie bereinigt und dann Gruppen Zugang gewährt, die an ihnen nahezu alles erforschen können – von der Frage, wann ein Beatmungsgerät eingesetzt werden sollte, bis hin zur Frage, ob und wie COVID-19 den Menstruationszyklus beeinflusst.

"Schockierender" Datenmangel

"Es ist einfach schockierend, dass wir angesichts einer Pandemie keine harmonisierten, aggregierten Gesundheitsdaten für die Forschung hatten", sagt Melissa Haendel, Professorin für Forschungsinformatik an der University of Colorado Anschutz Medical Campus und eine der Co-Leiterinnen von N3C. "Außerhalb des Kontexts einer Pandemie hätten es nie geschafft, dieses Ausmaß an Daten zu bekommen." Nun zeige sich, dass es möglich ist, aufbereitete klinische Daten auf sichere und transparente Weise breit zu teilen.

Die Datenbank ist schon jetzt eine der größten Sammlungen von COVID-Datensätzen der Welt, mit 6,3 Millionen Patientendatensätzen aus 56 Institutionen. 2,1 Millionen davon waren infiziert. Die meisten Datensätze reichen bis ins Jahr 2018 zurück, und die beteiligten Organisationen haben sich verpflichtet, sie fünf Jahre lang zu aktualisieren. Das macht N3C nicht nur zu einer der nützlichsten Ressourcen für die Erforschung der Krankheit, sondern auch zu einer der vielversprechendsten Möglichkeiten, das Virus langfristig zu beobachten.

Ein System, bei dem Institutionen Datensätze in großen Mengen an eine zentralisierte Bundesregierung senden, bleibt eine Anomalie im US-Gesundheitssystem. Richtig eingesetzt, hat es das Potenzial, lange nach der Pandemie detaillierte Fragen zu beantworten. Und es könnte sogar als Proof of Concept für ähnliche Bemühungen in der Zukunft dienen.

Um Informationen zur Datenbank beizusteuern, wählen die teilnehmenden Anbieter zunächst zwei Gruppen von Patienten aus: Menschen, die positiv auf SARS-CoV-2 getestet wurden, sowie andere, die als Kontrollgruppe dienen. Dann entfernen sie alles, was die Daten persönlich identifizierbar macht – außer der Postleitzahl und dem Datum der Behandlung – und übermitteln sie geschützt an das N3C. Dort bereinigen Techniker die Daten weiter – eine nicht zu unterschätzende Aufgabe – und geben sie in die Datenbank ein.

Open-Source-Forschung

Jeder kann über das Dashboard des N3C [4] einen Forschungsvorschlag einreichen, unabhängig davon, ob er mit einer einreichenden Institution verbunden ist oder nicht. Sogar Citizen Scientists, also Bürgerwissenschaftler [5], können Zugang zu einer anonymisierten Version des Archivs beantragen.

Ein NIH-Komitee prüft jeden Vorschlag und entscheidet, auf welche Variante der Daten die Forscher zugreifen können. Es gibt mehrere Informationsebenen: einen begrenzten Datensatz, eine zweite Ebene, die echte Datensätze enthält, bei denen Postleitzahlen und Daten unkenntlich gemacht wurden, und eine dritte Ebene, die aus computergenerierten "synthetischen" Datensätzen [6] besteht, die die gleichen Attribute wie die echten Daten enthalten, ohne echte Patientendaten mitzuliefern. Jeder Interessent muss ein Datensicherheitstraining absolvieren, bevor er Zugang erhält.

Saubere Daten

Bislang wurden 215 Forschungsprojekte genehmigt, darunter Studien zur Verfolgung der Ergebnisse von Patienten, die verschiedene COVID-19-Impfstoffe erhalten haben, sowie zur Untersuchung der Komplikationsraten von elektiven Operationen bei Nicht-COVID-19-Patienten während der Pandemie. Die erste Veröffentlichung aus dem Projekt war eine Analyse der Mortalitäts-Risikofaktoren bei Krebspatienten, die sich mit SARS-CoV-2 infiziert [7] hatten, sowie mehrere Pre-Prints, unter anderem zu den COVID-19-Ergebnissen bei Patienten mit Lebererkrankungen [8] und Menschen mit HIV [9].

Saubere, genaue Daten sind für solche Studien unerlässlich, aber im Chaos der Pandemie war es schwer, sie zu bekommen. Im vergangenen Juni zogen zwei große Fachzeitschriften, das BMJ und The Lancet, Arbeiten zurück, die auf "Daten" von Surgisphere basierten [10], einer wenig bekannten medizinischen Datenfirma mit einer Handvoll Mitarbeitern. Das Unternehmen behauptete, Zugang zu Echtzeit-Krankenakten von fast 100.000 Covid-Patienten in 700 Krankenhäusern auf der ganzen Welt zu haben. In einigen Fällen repräsentierten die Zahlen mehr Fälle, als in einem bestimmten Land tatsächlich diagnostiziert worden waren.

Daten haben Macht

Bevor sie zurückgezogen wurden, führten die Untersuchungen zu Entscheidungen, klinische Studien zu stoppen und sogar medizinische Praktiken zu ändern. Doch als die Forscher misstrauisch wurden – zumal schon eine einzige Vereinbarung über den Transfer medizinischer Daten enormen Zeit- und Arbeitsaufwand bedeutet – weigerte sich das Unternehmen, die Daten überprüfen zu lassen. Tatsächlich gibt es keinen Beweis dafür, dass die Datenbank jemals existierte.

Unstrukturierte Daten sind das größte Problem

N3C hingegen kann von Tausenden von Forschern an Hunderten von teilnehmenden Institutionen überprüft werden und ist ihnen gegenüber rechenschaftspflichtig, wobei ein starker Fokus auf Transparenz und Reproduzierbarkeit liegt. Alles, was die Benutzer über die Schnittstelle, die die GovCloud-Plattform von Palantir [11] nutzt, tun, wird sorgfältig aufbewahrt, so dass sich alle Schritte der User zurückverfolgen lassen.

"Das ist keine Raketenwissenschaft und es ist auch nicht wirklich neu. Es ist einfach nur harte Arbeit. Der Job ist mühsam, er muss sorgfältig erledigt werden und wir müssen jeden Schritt validieren", sagt Christopher Chute, Professor für Medizin an der Johns Hopkins University, der Co-Leiter von N3C ist. "Das Schlimmste, was wir tun könnten, ist, Daten methodisch in Müll zu verwandeln, der uns falsche Antworten liefert."

Seine Kollegin Haendel weist darauf hin, dass diese Bemühungen nicht einfach waren. "Die Vielfalt an Fachwissen, die nötig war, um dies zu erreichen – Ausdauer, Hingabe und, offen gesagt, rohe Gewalt – ist einfach beispiellos", sagt sie. Diese brachiale Kraft kam aus vielen verschiedenen Bereichen, nicht nur aus der Medizin.

Großprojekt aus vielen Disziplinen

"Es hat wirklich geholfen, Menschen aus allen Bereichen der Wissenschaft an Bord zu haben. Bei COVID-19 waren die Leute viel eher bereit, zusammenzuarbeiten", sagt Mary Boland, Professorin für Informatik an der University of Pennsylvania. "Man konnte Ingenieure, Informatiker, Physiker sich einbringen lassen – all diese Leute, die normalerweise nicht an Forschung im Bereich der öffentlichen Gesundheit teilnehmen würden." Boland ist Teil einer Gruppe, die die N3C-Daten nutzt, um zu untersuchen, ob COVID-19 unregelmäßige Blutungen bei Frauen mit polyzystischem Ovarialsyndrom (PCOS) verstärkt. Normalerweise müssen die meisten Forscher Daten von Krankenversicherungen verwenden, um eine ausreichend große Datenbasis für Analysen auf Bevölkerungsebene zu erhalten, sagt sie.

Solche Informationen können einige Fragen beantworten, zum Beispiel, wie gut Medikamente in der realen Welt wirken. Aber in diesen Datenbanken fehlen riesige Mengen an Informationen, darunter Laborergebnisse, die Symptome, die die Patienten angeben, und sogar Daten darüber, ob Patienten überleben oder sterben. Außerhalb dieser Datenbanken für Versicherungsansprüche verwenden die meisten Gesundheitsdaten-Projekte in den USA ein föderatives Modell. Die Teilnehmer an diesen Studien vereinbaren, ihre eigenen Datensätze in ein gemeinsames Format zu bringen und dann Abfragen aus dem Kollektiv heraus durchzuführen, wie z. B. den Anteil der schweren COVID-19-Fälle nach Altersgruppe. Mehrere internationale Virologen-Forschungsgruppen, darunter das Observational Health Data Sciences and Informatics [12] (OHDSI, ausgesprochen "Odyssey"), arbeiten auf diese Weise, um rechtliche und politische Probleme mit grenzüberschreitend geteilten Patientendaten zu vermeiden.

OHDSI, das 2014 gegründet wurde, versammelt Forscher aus 30 Ländern und besitzt Datensätze zu 600 Millionen Patienten. "Das erlaubt jeder Institution, ihre Daten hinter ihren eigenen Firewalls zu behalten, mit ihren eigenen Datenschutzmaßnahmen. Es müssen keine Patientendaten hin und her bewegt werden", sagt Boland. "Das ist für viele Einrichtungen sehr beruhigend, vor allem bei all den Hackerangriffen, die in letzter Zeit stattgefunden haben." Aber sich darauf zu verlassen, dass jede Einrichtung ihre eigenen Daten für ein solches System vernünftig aufbereitet, birgt eine Menge Risiken. Die größte Herausforderung sei es, die Daten in ein einheitliches Format zu bringen, denn selbst Medikamentennamen sind in den USA nicht standardisiert, so Boland. "Apotheken haben oft ihre Generika, die aufgrund von Patentgesetzen leicht unterschiedliche Inhaltsstoffe haben können. Jedes davon hat seinen eigenen Medikamentennamen."

N3C hingegen bittet alle Teilnehmer, ihre unaufbereiteten Rohdatensätze zu schicken und sie von der zentralen Stelle bereinigen und standardisieren zu lassen. Während die Vorteile auf der Hand liegen, gibt es sowohl in Amerika als auch international erhebliche rechtliche und soziale Hürden für diese Art der Teilnahme; viele Institutionen können zum Beispiel wegen der Datenschutzgesetze in ihren Bundesstaaten nicht zu N3C beitragen.

Ein gigantisches Projekt

Es ist auch eine technische Herausforderung. Das Zusammenführen von zwei elektronischen Krankenakten ist extrem schwierig und arbeitsintensiv; die Qualität der Daten ist oft schlecht – und es gibt wie erwähnt wenig Standardisierung. Laut einer Pew-Studie aus dem Jahr 2018 sind in Gesundheitsorganisationen mit mehreren Standorten bis zu einer von fünf Krankenakten doppelt vorhanden, meist als Folge von Eingabefehlern bei Arztterminen oder Untersuchungen. Diejenigen, die föderative Datenmodelle verteidigen, behaupten oft, dass sie ihre eigene Qualitätskontrolle hinter ihrer Firewall durchführen. Aber die N3C-Forscher waren schockiert, als sie herausfanden, wie unordentlich die Daten waren.

"Es gab ein gewisses Maß an Skepsis von Seiten der Datenlieferanten. Man sagte etwa, dass es keinen Rahmen für die Datenqualität brauche, denn man mache das ja schon an eigenen Standorten, hinter der Firewall", sagt Haendel. Werkzeuge zur Harmonisierung brauche es da nicht. "Doch wir haben gelernt, dass diese Qualitätsmaßnahmen unzureichend sind, wenn man die Daten in ihrer Gesamtheit betrachtet." Einige der Datenqualitätsprobleme hätten "ans Absurde" gegrenzt, sagt sie. "In einigen Fällen haben es die Organisationen versäumt, Einheiten anzugeben. Es gab also Gewichtsangaben, ohne dass wir wussten, auf welchen Maßstab sie sich bezogen haben", sagt Haendels Kollege Chute.

So umfangreich die N3C-Datenbank auch ist, sie steht in keinem Verhältnis zu den Daten, die anderswo im US-Gesundheitssystem gesammelt und gepflegt werden, von Regierungsbehörden über Krankenhäuser, Testlabore bis hin zu den Versicherern. Allein das US-Gesundheitsministerium (Department of Health and Human Services) erhält mehr als 2.000 gesundheitsbezogene Datentypen von Bundes-, Landes- und lokalen Behörden.

Die Nützlichkeit jedes einzelnen Datensatzes ist durch die allgemein übliche Abschottung begrenzt: Für Forscher, die auf eigene Faust arbeiten, ist es im Grunde unmöglich, Ansprüche der staatlichen Krankenversicherung Medicare, Datensätze aus Impfstoffregistern, Daten der Bundesstaaten zu Rasse und ethnischer Zugehörigkeit bei Impfungen oder gar Datenbanken zu COVID-19-Varianten, die aus Patientenproben im ganzen Land sequenziert wurden, miteinander zu verbinden. In der Tat ist die Umwandlung von Rohdaten in nützliche Informationen so schwierig, dass sich daraus eine florierende Privatindustrie entwickelt hat: Datenbroker kaufen anonymisierte Datensätze in großen Mengen auf, analysieren Korrelationen zwischen den Variablen und verkaufen ihre Analysen – oder die Daten selbst – an Forscher und Regierungen.

Ein großer Fisch in einem noch viel größeren Ozean

"Wir sind bereit, alle unsere Daten an ein kommerzielles Unternehmen zu geben und sie an uns zurück zu verkaufen, aber wir sind nicht bereit, für die grundlegendste Infrastruktur des öffentlichen Gesundheitswesens zu bezahlen", sagt Haendel verärgert. "Dieser freiwillige Einsatz im Angesicht einer Pandemie ist großartig, aber es ist keine nachhaltige langfristige Lösung für den Umgang mit zukünftigen Pandemien, oder einfach nur mit der Gesundheitsversorgung im Allgemeinen."

Der N3C-Ansatz umgeht einige der vorhandenen Probleme, aber es gibt erhebliche Lücken in den Daten, vor allem bei den Informationen über Impfungen. Die meisten Impfstoffe werden in Gemeinschaftseinrichtungen verabreicht, während die Datensätze des Verbunds aus Hausarztbesuchen und Krankenhausaufenthalten stammen, was bedeutet, dass nur 245.000 Impfungen mit Pfizer-Biontech und 104.000 mit Moderna in den Datensätzen erfasst wurden. Ein Analyseunternehmen für das Gesundheitswesen entwickelt derzeit ein Tool zur sicheren Integration von Patientendaten aus verschiedenen Quellen, das aber frühestens in ein paar Monaten verfügbar sein wird.

Doch selbst mit diesen Lücken bietet die riesige Datenbank von N3C eine der besten Ressourcen für Forscher, die die vielen ungelösten Fragen zu COVID-19 beantworten wollen. "Das ist sozusagen der Punkt, an dem wir jetzt angelangt sind", sagt Haendel. "Wir brauchen echte Experten für all die verschiedenen Aspekte der klinischen Versorgung und der Wissenschaft dahinter, die uns helfen, all diese Nadeln im Heuhaufen zu finden."

(bsc [13])

URL dieses Artikels:
https://www.heise.de/-6134314

Links in diesem Artikel:
[1] https://www.heise.de/hintergrund/Wie-Forscher-und-Pharma-versuchen-endlich-ein-COVID-19-Heilmittel-zu-finden-6134310.html
[2] https://www.heise.de/
[3] https://ncats.nih.gov/n3c
[4] https://covid.cd2h.org/dashboard/
[5] https://www.heise.de/hintergrund/Wie-Buergerwissenschaftler-auf-die-Jagd-nach-Zikaden-gehen-6064039.html
[6] https://www.heise.de/hintergrund/Wie-synthetische-Datensaetze-KI-Systeme-verbessern-sollen-6071301.html
[7] https://ascopubs.org/doi/full/10.1200/JCO.21.01074
[8] https://www.medrxiv.org/content/10.1101/2021.06.03.21258312v1
[9] https://www.medrxiv.org/content/10.1101/2021.06.03.21258324v1
[10] https://www.heise.de/select/tr/2020/9/2019716392991496756
[11] https://ncats.nih.gov/n3c/about/program-faq#privacy-and-security
[12] https://ohdsi.org/
[13] mailto:bsc@heise.de