Wie Corona in den USA die Digitalisierung des Gesundheitswesens voranbringt

Seite 3: Unstrukturierte Daten sind das größte Problem

Inhaltsverzeichnis

N3C hingegen kann von Tausenden von Forschern an Hunderten von teilnehmenden Institutionen überprüft werden und ist ihnen gegenüber rechenschaftspflichtig, wobei ein starker Fokus auf Transparenz und Reproduzierbarkeit liegt. Alles, was die Benutzer über die Schnittstelle, die die GovCloud-Plattform von Palantir nutzt, tun, wird sorgfältig aufbewahrt, so dass sich alle Schritte der User zurückverfolgen lassen.

"Das ist keine Raketenwissenschaft und es ist auch nicht wirklich neu. Es ist einfach nur harte Arbeit. Der Job ist mühsam, er muss sorgfältig erledigt werden und wir müssen jeden Schritt validieren", sagt Christopher Chute, Professor für Medizin an der Johns Hopkins University, der Co-Leiter von N3C ist. "Das Schlimmste, was wir tun könnten, ist, Daten methodisch in Müll zu verwandeln, der uns falsche Antworten liefert."

Seine Kollegin Haendel weist darauf hin, dass diese Bemühungen nicht einfach waren. "Die Vielfalt an Fachwissen, die nötig war, um dies zu erreichen – Ausdauer, Hingabe und, offen gesagt, rohe Gewalt – ist einfach beispiellos", sagt sie. Diese brachiale Kraft kam aus vielen verschiedenen Bereichen, nicht nur aus der Medizin.

"Es hat wirklich geholfen, Menschen aus allen Bereichen der Wissenschaft an Bord zu haben. Bei COVID-19 waren die Leute viel eher bereit, zusammenzuarbeiten", sagt Mary Boland, Professorin für Informatik an der University of Pennsylvania. "Man konnte Ingenieure, Informatiker, Physiker sich einbringen lassen – all diese Leute, die normalerweise nicht an Forschung im Bereich der öffentlichen Gesundheit teilnehmen würden." Boland ist Teil einer Gruppe, die die N3C-Daten nutzt, um zu untersuchen, ob COVID-19 unregelmäßige Blutungen bei Frauen mit polyzystischem Ovarialsyndrom (PCOS) verstärkt. Normalerweise müssen die meisten Forscher Daten von Krankenversicherungen verwenden, um eine ausreichend große Datenbasis für Analysen auf Bevölkerungsebene zu erhalten, sagt sie.

Solche Informationen können einige Fragen beantworten, zum Beispiel, wie gut Medikamente in der realen Welt wirken. Aber in diesen Datenbanken fehlen riesige Mengen an Informationen, darunter Laborergebnisse, die Symptome, die die Patienten angeben, und sogar Daten darüber, ob Patienten überleben oder sterben. Außerhalb dieser Datenbanken für Versicherungsansprüche verwenden die meisten Gesundheitsdaten-Projekte in den USA ein föderatives Modell. Die Teilnehmer an diesen Studien vereinbaren, ihre eigenen Datensätze in ein gemeinsames Format zu bringen und dann Abfragen aus dem Kollektiv heraus durchzuführen, wie z. B. den Anteil der schweren COVID-19-Fälle nach Altersgruppe. Mehrere internationale Virologen-Forschungsgruppen, darunter das Observational Health Data Sciences and Informatics (OHDSI, ausgesprochen "Odyssey"), arbeiten auf diese Weise, um rechtliche und politische Probleme mit grenzüberschreitend geteilten Patientendaten zu vermeiden.

OHDSI, das 2014 gegründet wurde, versammelt Forscher aus 30 Ländern und besitzt Datensätze zu 600 Millionen Patienten. "Das erlaubt jeder Institution, ihre Daten hinter ihren eigenen Firewalls zu behalten, mit ihren eigenen Datenschutzmaßnahmen. Es müssen keine Patientendaten hin und her bewegt werden", sagt Boland. "Das ist für viele Einrichtungen sehr beruhigend, vor allem bei all den Hackerangriffen, die in letzter Zeit stattgefunden haben." Aber sich darauf zu verlassen, dass jede Einrichtung ihre eigenen Daten für ein solches System vernünftig aufbereitet, birgt eine Menge Risiken. Die größte Herausforderung sei es, die Daten in ein einheitliches Format zu bringen, denn selbst Medikamentennamen sind in den USA nicht standardisiert, so Boland. "Apotheken haben oft ihre Generika, die aufgrund von Patentgesetzen leicht unterschiedliche Inhaltsstoffe haben können. Jedes davon hat seinen eigenen Medikamentennamen."

N3C hingegen bittet alle Teilnehmer, ihre unaufbereiteten Rohdatensätze zu schicken und sie von der zentralen Stelle bereinigen und standardisieren zu lassen. Während die Vorteile auf der Hand liegen, gibt es sowohl in Amerika als auch international erhebliche rechtliche und soziale Hürden für diese Art der Teilnahme; viele Institutionen können zum Beispiel wegen der Datenschutzgesetze in ihren Bundesstaaten nicht zu N3C beitragen.

Es ist auch eine technische Herausforderung. Das Zusammenführen von zwei elektronischen Krankenakten ist extrem schwierig und arbeitsintensiv; die Qualität der Daten ist oft schlecht – und es gibt wie erwähnt wenig Standardisierung. Laut einer Pew-Studie aus dem Jahr 2018 sind in Gesundheitsorganisationen mit mehreren Standorten bis zu einer von fünf Krankenakten doppelt vorhanden, meist als Folge von Eingabefehlern bei Arztterminen oder Untersuchungen. Diejenigen, die föderative Datenmodelle verteidigen, behaupten oft, dass sie ihre eigene Qualitätskontrolle hinter ihrer Firewall durchführen. Aber die N3C-Forscher waren schockiert, als sie herausfanden, wie unordentlich die Daten waren.

"Es gab ein gewisses Maß an Skepsis von Seiten der Datenlieferanten. Man sagte etwa, dass es keinen Rahmen für die Datenqualität brauche, denn man mache das ja schon an eigenen Standorten, hinter der Firewall", sagt Haendel. Werkzeuge zur Harmonisierung brauche es da nicht. "Doch wir haben gelernt, dass diese Qualitätsmaßnahmen unzureichend sind, wenn man die Daten in ihrer Gesamtheit betrachtet." Einige der Datenqualitätsprobleme hätten "ans Absurde" gegrenzt, sagt sie. "In einigen Fällen haben es die Organisationen versäumt, Einheiten anzugeben. Es gab also Gewichtsangaben, ohne dass wir wussten, auf welchen Maßstab sie sich bezogen haben", sagt Haendels Kollege Chute.

So umfangreich die N3C-Datenbank auch ist, sie steht in keinem Verhältnis zu den Daten, die anderswo im US-Gesundheitssystem gesammelt und gepflegt werden, von Regierungsbehörden über Krankenhäuser, Testlabore bis hin zu den Versicherern. Allein das US-Gesundheitsministerium (Department of Health and Human Services) erhält mehr als 2.000 gesundheitsbezogene Datentypen von Bundes-, Landes- und lokalen Behörden.

Die Nützlichkeit jedes einzelnen Datensatzes ist durch die allgemein übliche Abschottung begrenzt: Für Forscher, die auf eigene Faust arbeiten, ist es im Grunde unmöglich, Ansprüche der staatlichen Krankenversicherung Medicare, Datensätze aus Impfstoffregistern, Daten der Bundesstaaten zu Rasse und ethnischer Zugehörigkeit bei Impfungen oder gar Datenbanken zu COVID-19-Varianten, die aus Patientenproben im ganzen Land sequenziert wurden, miteinander zu verbinden. In der Tat ist die Umwandlung von Rohdaten in nützliche Informationen so schwierig, dass sich daraus eine florierende Privatindustrie entwickelt hat: Datenbroker kaufen anonymisierte Datensätze in großen Mengen auf, analysieren Korrelationen zwischen den Variablen und verkaufen ihre Analysen – oder die Daten selbst – an Forscher und Regierungen.

"Wir sind bereit, alle unsere Daten an ein kommerzielles Unternehmen zu geben und sie an uns zurück zu verkaufen, aber wir sind nicht bereit, für die grundlegendste Infrastruktur des öffentlichen Gesundheitswesens zu bezahlen", sagt Haendel verärgert. "Dieser freiwillige Einsatz im Angesicht einer Pandemie ist großartig, aber es ist keine nachhaltige langfristige Lösung für den Umgang mit zukünftigen Pandemien, oder einfach nur mit der Gesundheitsversorgung im Allgemeinen."

Der N3C-Ansatz umgeht einige der vorhandenen Probleme, aber es gibt erhebliche Lücken in den Daten, vor allem bei den Informationen über Impfungen. Die meisten Impfstoffe werden in Gemeinschaftseinrichtungen verabreicht, während die Datensätze des Verbunds aus Hausarztbesuchen und Krankenhausaufenthalten stammen, was bedeutet, dass nur 245.000 Impfungen mit Pfizer-Biontech und 104.000 mit Moderna in den Datensätzen erfasst wurden. Ein Analyseunternehmen für das Gesundheitswesen entwickelt derzeit ein Tool zur sicheren Integration von Patientendaten aus verschiedenen Quellen, das aber frühestens in ein paar Monaten verfügbar sein wird.

Doch selbst mit diesen Lücken bietet die riesige Datenbank von N3C eine der besten Ressourcen für Forscher, die die vielen ungelösten Fragen zu COVID-19 beantworten wollen. "Das ist sozusagen der Punkt, an dem wir jetzt angelangt sind", sagt Haendel. "Wir brauchen echte Experten für all die verschiedenen Aspekte der klinischen Versorgung und der Wissenschaft dahinter, die uns helfen, all diese Nadeln im Heuhaufen zu finden."

(bsc)