Corona: Wer die jungen Forscher hinter der Mutanten-Benennung sind

Ohne feste Nomenklatur könnten Forscher mit der Ausbreitung von Mutationen von SARS-CoV-2 nicht Schritt halten. Das System dafür haben Jungforscher entwickelt.

34

(Bild: Ms Tech / CDC)

03.08.2021, 08:00 Uhr

Lesezeit: 10 Min.

MIT Technology Review

Von

Cat Ferguson

Als im März in ganz Indien die Zahl der COVID-19-Fälle in die Höhe schoß, suchte Bani Jolly nach Antworten im genetischen Code des Virus. Forscher im Vereinten Königreich hatten gerade die wissenschaftliche Welt mit der Nachricht in Aufruhr versetzt, dass eine Coronavirus-Variante namens B.1.1.7 – die bald als Alpha bezeichnet werden sollte – für die sich explosionsartig entwickelnden britischen Fallzahlen verantwortlich war. Jolly, eine Doktorandin im dritten Jahr am CSIR Institute of Genomics and Integrative Biology in Neu-Delhi, erwartete, dass B.1.1.7 auch in ihrem Land hinter dem sprunghaften Anstieg der Infektionen steckte.

Videos by heise

Da ihr Institut in der indischen COVID-19-Forschung führend ist, hatte die Forscherin Zugang zu Sequenzen von Tausenden von Proben aus dem ganzen Land. Diese fütterte sie einer Software, die Proben nach verschiedenen Zweigen des Virusstammbaums gruppiert. Doch anstelle der erwarteten Häufing von B.1.1.7-Fällen fand Jolly eine Ansammlung von Sequenzen, die keiner bekannten Variante ähnelten. Einige wiesen sogar zwei Mutationen des Spike-Proteins auf, die bereits zuvor im Verdacht standen, das Virus gefährlicher zu machen.

Jollys Betreuer schlug vor, sich an andere Sequenzierungslabore in ganz Indien zu wenden. Deren Daten zeigten ebenfalls Anzeichen dafür, dass ein lokaler Ausbruch zu einer neuen Virusfamilie geführt hatte. Als nächstes konsultierte Jolly eine in Schottland entwickelte GitHub-Seite, die von einer Handvoll von Freiwilligen auf der ganzen Welt betreut wird und den neuen Virusvarianten ihren Namen gibt.

Benennung der Viren dank GitHub

Dieses auf den Namen "Pango" getaufte System ist hinter den Kulissen unverzichtbar für die globale COVID-19-Forschung geworden. Seine Softwaretools und sein Benennungssystem haben Wissenschaftlern weltweit geholfen, fast 2,5 Millionen Proben des Virus zu verstehen und zu klassifizieren.

Im April veröffentlichte Jolly die neuen Sequenzen auf der GitHub-Seite und entdeckte, dass der britische Genomik-Epidemiologe Andrew Rambaut nur einige Tage zuvor bereits auf die neue Variante hingewiesen hatte, die er von chinesischen Forschern erhalten hatte. Das Pango-Team glich die Genome mit jenen in der öffentlichen Sequenzdatenbank GISAID ab und stimmte mit Jolly überein, dass sich das Virus signifikant verändert hatte. Sie gaben der neuen Variante schnell einen neuen Namen: B.1.617. Diese Familie hat sich seitdem um die berüchtigte stärker übertragbare Untervariante erweitert, die in den Medien als Delta bekannt ist.

"Pango macht es wirklich einfach zu sehen, ob andere Leute auch sehen, was wir sehen", sagt Jolly. "Wenn nicht, ist es wirklich einfach zu melden, was wir in Indien sehen, damit die Leute es auch in anderen Regionen verfolgen können." Forscher, Beamte des öffentlichen Gesundheitswesens und Journalisten auf der ganzen Welt verwenden Pango, um die Entwicklung von COVID-19 zu verstehen. Aber nur wenige wissen, dass das gesamte Unterfangen – wie vieles auf dem neuen Gebiet der SARS-CoV-2-Genomik – von einem winzigen Team junger Forscher getrieben wird, die oft ihre normale Arbeit auf Eis gelegt haben, um sie aufzubauen.

Früher zu wenig Daten, heute zu viele

Man könnte annehmen, dass es seit Langem einen offiziellen, bewährten Prozess für die Benennung neuer Zweige von Virus-Stammbäumen gibt, während sie sich entwickeln. Immerhin untersuchen Forscher Viren seit zwei Jahrzehnten per Genomsequenzierung. Aber diese Arbeit musste in der Vergangenheit mit deutlich weniger Daten zurechtkommen und davon wurden nur wenig zwischen Wissenschaftlern auf verschiedenen Kontinenten geteilt, wie es bei COVID-19-Sequenzen der Fall war. Es hatte einfach nie eine dringende Notwendigkeit bestanden, standardisierte Namen zu entwickeln.

Als die Weltgesundheitsorganisation (WHO) im März 2020 eine Pandemie ausrief, enthielt GISAID 524 Covid-Sequenzen. Im Laufe des nächsten Monats luden Wissenschaftler 6000 weitere hoch. Ende Mai waren es bereits über 35.000. Zum Vergleich: Weltweit fügten Wissenschaftler GISAID im gesamten Jahr 2019 nur 40.000 Grippesequenzen hinzu.

Als die Zahl der SARS-CoV-2-Sequenzen rasant anzusteigen begann, sahen sich die Forscher gezwungen, im Handumdrehen völlig neue Infrastrukturen und Standards zu entwickeln. Ohne ein universelles Nomenklatursystem hätten Wissenschaftler sonst große Schwierigkeiten gehabt, sich über die Verbreitung und Veränderung des Virus auszutauschen, ob zur Klärung von Fragen oder um Alarm zu schlagen.

Woher Pango kam

Im April 2020 veröffentlichte eine Handvoll prominenter Virologen in Großbritannien und Australien in einem Preprint einen Vorschlag für ein Buchstaben- und Zahlensystem zur Benennung von Abstammungslinien, also den neuen Zweigen des COVID-19-Stammbaums. Es hatte eine Logik und eine Hierarchie, obwohl die generierten Namen wie B.1.1.7 ziemlich schwer zu merken waren. Treibende Kraft dahinter war Áine O’Toole, Doktorandin an der University of Edinburgh. Schnell war sie die einzige, die für das Sortieren und Klassifizieren Hunderttausender von Sequenzen von Hand verantwortlich war.

"Schon sehr früh ging es darum, wer alles für die Kuratierung der Sequenzen zur Verfügung steht. Das war für einige Zeit allein mein Job. Ich glaube, ich habe nie ganz absehen können, in welche Größenordnung wir kommen würden", sagt O’Toole. Schnell begann sie damit, eine Software für die richtige Zuordnung neuer Genome zu den Abstammungslinien zu entwickeln. Kurz darauf baute die Postdoktorandin Emily Scher einen Algorithmus auf Basis von maschinellem Lernen, um den Ablauf weiter zu beschleunigen. Sie nannten die Software Pangolin, ein Hinweis auf die Debatte um den tierischen Ursprung von COVID-19. Inzwischen ist das System einfach als Pango bekannt. Das Namenssystem und die Software dafür wurden schnell zu einem global unverzichtbaren Werkzeug. Obwohl die WHO seit Kurzem griechische Buchstaben für besonders besorgniserregende Varianten wie Delta verwendet, sind diese Namen für die Öffentlichkeit und die Medien bestimmt. Delta bezieht sich tatsächlich auf eine wachsende Familie von Varianten, die Wissenschaftler unter ihren genaueren Pango-Namen nennen: B.1.617.2, AY.1, AY.2 und AY.3.

"Als Alpha in Großbritannien auftauchte, machte es uns Pango sehr leicht, nach diesen Mutationen in unseren vorhandenen Genomen zu suchen, um zu sehen, ob wir diese Abstammungslinie auch in unserem Land hatten", sagt Jolly. "Seitdem dient Pango als Basis für die Meldung und Überwachung von Varianten in Indien." Da Pango einen rationalen, geordneten Ansatz bietet, könnte es die Benennung von Virusstämmen für immer verändern. "Höchstwahrscheinlich wird es ein Format sein, das wir für die Verfolgung jedes neuen Virus verwenden werden", sagt Pango-Mitarbeiter Anderson Brito, der als Postdoktorand an der Yale School of Public Health forscht.

Schnell gebaut

Die Entwicklung war nicht einfach. Für weite Strecken des Jahres 2020 übernahm O’Toole den Großteil der Verantwortung für die Identifizierung und Benennung neuer Abstammungslinien. Alle paar Wochen lud O’Toole die gesamte COVID-19-Sammlung aus der GISAID-Datenbank herunter, die jedes Mal exponentiell weitergewachsen war. Dann suchte sie nach Genomgruppen mit ähnlichen Mutationen oder seltsam aussehenden Phänomenen, die möglicherweise falsch etikettiert worden waren. Nur wenn sie wirklich tief feststeckte, holte sie sich Hilfe von Kollegen aus ihrer Arbeitsgruppe.

Die Entscheidung, wann neue Varianten des Virus einen eigenen Familiennamen verdienen, kann mehr Kunst als Wissenschaft sein. "Das war ziemlich mühsam, rief aber auch Demut hervor", sagt O‘Toole. "Stellen Sie sich vor, Sie gehen 20.000 Sequenzen von 100 verschiedenen Orten der Welt durch. Ich habe Sequenzen von Orten gesehen, von denen ich noch nie etwas gehört hatte." Doch O’Toole hatte Mühe, mit der Menge neuer Genome Schritt zu halten, die sortiert und benannt werden mussten. Im Juni 2020 waren über 57.000 Sequenzen in der GISAID-Datenbank gespeichert und O’Toole hatte sie in 39 Varianten sortiert.

Glücklicherweise ist die Pango-Software auf Zusammenarbeit ausgelegt und andere Forscher begannen zu helfen. Eine neue Online-Community – diejenige, an die sich Jolly mit der neuen indischen Variante gewandt hatte – wuchs heran. Neue Abstammungslinien werden jetzt hauptsächlich dann benannt, wenn Epidemiologen auf der ganzen Welt O’Toole und den Rest des Teams über Twitter, E-Mail oder GitHub kontaktieren.

Wohin die Reise geht

Im vergangenen Frühjahr veranstaltete das Team einen "Pangothon", eine Art Hackathon, bei dem 800.000 Sequenzen in rund 1200 Linien sortiert wurden. "Wir haben uns drei Tage dafür gegeben", sagt O’Toole. "Es hat zwei Wochen gedauert." Seitdem hat das Pango-Team weitere Freiwillige rekrutiert, und O’Toole hat sie kürzlich gebeten, offiziell der Organisation als Teil des neu geschaffenen Pango-Netzwerk Lineage Designation Committee beizutreten, das Namensvarianten diskutiert und Entscheidungen trifft. Ein weiteres Gremium, zu dem auch Rambaut aus Großbritannien gehört, trifft übergeordnete Entscheidungen.

Heute gibt es in GISAID fast 2,5 Millionen COVID-Sequenzen, die das Pango-Team in 1300 Abstammungslinien aufgeteilt hat. Jeder Zweig entspricht einer Variante. Von diesen sind laut WHO acht als gefährlich zu betrachten. Allerdings führt die schiere Datenmenge immer öfter zu Fehlern wie etwa falschen Klassifizierungen. Viele Stämme ähneln einander stark, weil das Virus immer wieder die vorteilhaftesten Mutationen entwickelt.

Als Notlösung hat das Team deshalb eine neue Software entwickelt, die eine andere Sortiermethode verwendet und auch Facetten erfassen kann, die Pango möglicherweise übersieht. Es ist jedoch wichtig, sich daran zu erinnern, dass noch nie ein System mit einer solchen Datenflut zur Mutation von Viren umgehen musste. COVID-19 ist das am schärfsten beobachtete Virus aller Zeiten geworden. Es ist auch das erste Mal, dass Wissenschaftler genau sehen konnten, wie sich das Virus verändert, wenn es sich zwischen den Ländern bewegt. "All dies war nur möglich, weil die Leute ihre Daten und ihre Werkzeuge miteinander geteilt haben", sagt Jolly. (vsz)