Grover: KI behandelt Menschen-DNA wie Sprache
Ein Team der TU Dresden hat ein KI-Modell entwickelt, das die menschliche DNA wie eine Sprache behandelt und so neue biologische Informationen ableiten kann.
Forscher des Biotechnologischen Zentrums (BIOTEC) der Technischen Universität Dresden haben mit Grover ein Large Language Model (LLM) entwickelt, das mit menschlichem genetischem Code trainiert wurde. Das Modell behandelt die in DNA codierten Informationen wie eine Sprache und lernt deren Regeln und Zusammenhänge, um funktionale Informationen aus den Sequenzen abzuleiten. Die Studie wurde in "Nature Machine Intelligence" veröffentlicht.
Die Forscher fragten sich, warum DNA nicht wie eine Sprache behandelt werden kann. Sie haben dann die Hindernisse identifiziert und aus dem Weg geräumt. Grover wurde anschließend mit einem menschlichen Referenzgenom trainiert. Das resultierende Modell lasse sich laut Dr. Anna Poetsch, Leiterin der Forschungsgruppe am BIOTEC, verwenden, um biologische Bedeutung aus der menschlichen DNA zu extrahieren.
Grover lernt Grammatik der DNA
"Grover hat die Regeln der DNA gelernt", erklärt Dr. Melissa Sanabria, die federführende Wissenschaftlerin des Projekts. Im Sinne des DNA-Codes bedeutet das, die Regeln der Sequenzen zu lernen, also die Reihenfolge der Nukleotide und deren Bedeutung. "Ähnlich wie GPT-Modelle menschliche Sprachen lernen, hat Grover im Grunde gelernt, DNA zu sprechen", führt Sanabria aus.
Nach Erkenntnissen des Teams könne Grover für bestimmte Erbgutinformationen nicht nur die Abfolge von DNA-Sequenzen vorhersagen, sondern auch Informationen von biologischer Relevanz aus dem Kontext ableiten, etwa den Beginn von Genen oder Proteinbindungsstellen auf der DNA. Dabei lernt Grover auch Prozesse, die als "epigenetisch" gelten.
Um Grover zu trainieren, hat das Team zunächst ein DNA-Wörterbuch mittels Byte-Paar-Kodierung (Byte Pair Encoding, BPE) – eine ursprünglich für Transformermodelle wie GPT-3 entwickelte Tokenisierungsstrategie – erstellt und dafür das gesamte Genom nach den häufigsten Buchstabenkombinationen untersucht. "DNA ähnelt Sprache. Sie besteht aus vier Buchstaben, die Sequenzen bilden, und die Sequenzen tragen eine Bedeutung. Im Gegensatz zu einer Sprache gibt es jedoch kein Konzept für Wörter", sagt Poetsch. Wie ein Gen ein Protein kodiert, wurde zwar bereits vor vielen Jahrzehnten entschlüsselt, wie der restliche Teil der DNA funktioniert, jedoch nur rudimentär.
"DNA hat viele Funktionen, die über die Proteincodierung hinausgehen. Einige Sequenzen regulieren Gene, andere dienen strukturellen Zwecken, die meisten Sequenzen erfüllen mehrere Funktionen gleichzeitig. Derzeit verstehen wir die Bedeutung des größten Teils der DNA nicht. Für die Bereiche außerhalb von Genen scheinen wir erst an der Oberfläche gekratzt zu haben", erklärt Poetsch. Demnach gibt es bei der Protein-DNA-Interaktion immer noch viele offene Fragen. Mithilfe der Erkenntnisse aus Grover soll Licht ins Dunkel gebracht werden.
Die DNA sei dafür schrittweise tokenisiert worden, also in Einheiten auf der Wortebene unterteilt. Laut Poetsch unterscheide sich dieser Ansatz von bisherigen Versuchen. "Wir begannen mit zwei Buchstaben und durchsuchten die DNA immer wieder, um sie zu den häufigsten mehrbuchstabigen Kombinationen aufzubauen. Auf diese Weise haben wir in etwa 600 Zyklen die DNA in 'Wörter' fragmentiert, die es Grover ermöglichen, die nächste Sequenz am besten vorherzusagen", erklärt Sanabria.
Die Methoden natürlicher Sprachverarbeitung (Natural Language Processing, NLP) und biologische Tokenisierer auf DNA-Sequenzen von Lebewesen anzuwenden, ist nicht neu. Grover soll sich im Gegensatz zu ähnlichen Modellen jedoch auf menschliche DNA-Sequenzen beschränken, die aus Token zusammengesetzt sind.
Viele Sequenzen ungeklärt
Die Forscherinnen erhoffen sich von Grover neue Erkenntnisse über die vielfältigen, oft noch unverstandenen Funktionen der DNA jenseits der Protein-Codierung. "Nur ein bis zwei Prozent des Genoms bestehen aus Genen, den Sequenzen, die für Proteine codieren", so das Team. Das Team will mithilfe des Sprachmodells die Genomik und die personalisierte Medizin voranbringen.
Das BIOTEC ist Teil des Center for Molecular and Cellular Bioengineering (CMCB) der TU Dresden. Es verbindet zellbiologische, biophysikalische und bioinformatische Ansätze, um modernste Forschung auf dem Gebiet des "Molecular Bioengineering" zu betreiben.
Lesen Sie auch
Medizin: Seltene Krankheiten sind gar nicht so selten
(mack)