Grover: KI behandelt Menschen-DNA wie Sprache

Ein Team der TU Dresden hat ein KI-Modell entwickelt, das die menschliche DNA wie eine Sprache behandelt und so neue biologische Informationen ableiten kann.

In Pocket speichern vorlesen Druckansicht 15 Kommentare lesen
DNA-Strang

Ein Modell eines menschlichen DNA-Stranges mit der doppelten Helix-Struktur.

(Bild: Midjourney erstellt durch heise onlilne)

Lesezeit: 4 Min.

Forscher des Biotechnologischen Zentrums (BIOTEC) der Technischen Universität Dresden haben mit Grover ein Large Language Model (LLM) entwickelt, das mit menschlichem genetischem Code trainiert wurde. Das Modell behandelt die in DNA codierten Informationen wie eine Sprache und lernt deren Regeln und Zusammenhänge, um funktionale Informationen aus den Sequenzen abzuleiten. Die Studie wurde in "Nature Machine Intelligence" veröffentlicht.

Die Forscher fragten sich, warum DNA nicht wie eine Sprache behandelt werden kann. Sie haben dann die Hindernisse identifiziert und aus dem Weg geräumt. Grover wurde anschließend mit einem menschlichen Referenzgenom trainiert. Das resultierende Modell lasse sich laut Dr. Anna Poetsch, Leiterin der Forschungsgruppe am BIOTEC, verwenden, um biologische Bedeutung aus der menschlichen DNA zu extrahieren.

"Grover hat die Regeln der DNA gelernt", erklärt Dr. Melissa Sanabria, die federführende Wissenschaftlerin des Projekts. Im Sinne des DNA-Codes bedeutet das, die Regeln der Sequenzen zu lernen, also die Reihenfolge der Nukleotide und deren Bedeutung. "Ähnlich wie GPT-Modelle menschliche Sprachen lernen, hat Grover im Grunde gelernt, DNA zu sprechen", führt Sanabria aus.

Nach Erkenntnissen des Teams könne Grover für bestimmte Erbgutinformationen nicht nur die Abfolge von DNA-Sequenzen vorhersagen, sondern auch Informationen von biologischer Relevanz aus dem Kontext ableiten, etwa den Beginn von Genen oder Proteinbindungsstellen auf der DNA. Dabei lernt Grover auch Prozesse, die als "epigenetisch" gelten.

Um Grover zu trainieren, hat das Team zunächst ein DNA-Wörterbuch mittels Byte-Paar-Kodierung (Byte Pair Encoding, BPE) – eine ursprünglich für Transformermodelle wie GPT-3 entwickelte Tokenisierungsstrategie – erstellt und dafür das gesamte Genom nach den häufigsten Buchstabenkombinationen untersucht. "DNA ähnelt Sprache. Sie besteht aus vier Buchstaben, die Sequenzen bilden, und die Sequenzen tragen eine Bedeutung. Im Gegensatz zu einer Sprache gibt es jedoch kein Konzept für Wörter", sagt Poetsch. Wie ein Gen ein Protein kodiert, wurde zwar bereits vor vielen Jahrzehnten entschlüsselt, wie der restliche Teil der DNA funktioniert, jedoch nur rudimentär.

"DNA hat viele Funktionen, die über die Proteincodierung hinausgehen. Einige Sequenzen regulieren Gene, andere dienen strukturellen Zwecken, die meisten Sequenzen erfüllen mehrere Funktionen gleichzeitig. Derzeit verstehen wir die Bedeutung des größten Teils der DNA nicht. Für die Bereiche außerhalb von Genen scheinen wir erst an der Oberfläche gekratzt zu haben", erklärt Poetsch. Demnach gibt es bei der Protein-DNA-Interaktion immer noch viele offene Fragen. Mithilfe der Erkenntnisse aus Grover soll Licht ins Dunkel gebracht werden.

Ein Beispiel für die Tokenisierung mithilfe der Byte-Paar-Kodierung (Byte Pair Encoding, BPE). Die Wörter sind nach Tokenlänge eingefärbt und in einer Wortwolke mit relativer Gewichtung der Wörter nach ihrer Häufigkeit dargestellt. Das Modell setzt auf einer BERT-Architektur (Bidirectional Encoder Representations from Transformers) auf.

(Bild: Poetsch et al.)

Die DNA sei dafür schrittweise tokenisiert worden, also in Einheiten auf der Wortebene unterteilt. Laut Poetsch unterscheide sich dieser Ansatz von bisherigen Versuchen. "Wir begannen mit zwei Buchstaben und durchsuchten die DNA immer wieder, um sie zu den häufigsten mehrbuchstabigen Kombinationen aufzubauen. Auf diese Weise haben wir in etwa 600 Zyklen die DNA in 'Wörter' fragmentiert, die es Grover ermöglichen, die nächste Sequenz am besten vorherzusagen", erklärt Sanabria.

Die Methoden natürlicher Sprachverarbeitung (Natural Language Processing, NLP) und biologische Tokenisierer auf DNA-Sequenzen von Lebewesen anzuwenden, ist nicht neu. Grover soll sich im Gegensatz zu ähnlichen Modellen jedoch auf menschliche DNA-Sequenzen beschränken, die aus Token zusammengesetzt sind.

Die Forscherinnen erhoffen sich von Grover neue Erkenntnisse über die vielfältigen, oft noch unverstandenen Funktionen der DNA jenseits der Protein-Codierung. "Nur ein bis zwei Prozent des Genoms bestehen aus Genen, den Sequenzen, die für Proteine codieren", so das Team. Das Team will mithilfe des Sprachmodells die Genomik und die personalisierte Medizin voranbringen.

Das BIOTEC ist Teil des Center for Molecular and Cellular Bioengineering (CMCB) der TU Dresden. Es verbindet zellbiologische, biophysikalische und bioinformatische Ansätze, um modernste Forschung auf dem Gebiet des "Molecular Bioengineering" zu betreiben.

(mack)