Neuronale Netze entschlüsseln Code zur Genregulation

Ein deutsch-amerikanischer ­Forschungsverbund hat neuronale Netze so trainiert, dass diese eine zentrale Frage der Ent­wicklungsbiologie beantworten.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen

(Bild: Pete Linforth via Pixabay)

Lesezeit: 4 Min.

Forscher kartografieren bereits seit Jahren für viele Organismen die Positionen der Gene in der DNA, doch die Steuerung der Genaktivität ist noch wenig verstanden. An welchen Stellen ist kodiert, welche Gene ein Organismus wann in welchem Gewebe einsetzt und damit die gewebespezifischen Proteine herstellt? Ein interdisziplinäres Team aus Forschern der TU München, des Stowers Institute for Medical Research in Kansas City und der kalifornischen Stanford University hat nun neue Teile dieser komplexen Regulierung in der DNA-Sequenz von Mäusen entdeckt. Mäuse gelten als Modellorganismus, dessen regulatorische Konzepte den menschlichen zumindest ähneln. Ein speziell trainiertes neuronales Netzwerk spürte nun zuvor nicht verstandene Sequenzen auf.

Nicht nur die Gene, auch der Code zur Genregulation ist in der Basensequenz der DNA versteckt. Eine künstliche Intelligenz hat gelernt, diesen Code zu verstehen.

(Bild: Matthew Fern / PA / dpa)

Žiga Avsec, Doktorand im Team vom Professor Julien Gagneur in München, hat dafür, in enger Zusammenarbeit mit Bioinformatikern aus Stanford, ein neues neuronales Netzmodell entwickelt. Base Pair Network (BPNet) ist eine Variante der Convolutional Neural Networks, die vor allem Bilddaten analysieren. Neuronale Netze mit der BPNet-Technik verfolgen einen ähnlichen Bottom-up-Ansatz wie Systeme zur Gesichtserkennung. Diese erkennen Schicht für Schicht zunächst einfache Kanten und Linien, dann in höheren Schichten zusammenhängende Formen und schließlich komplexe Gesichter. Die Forscher entschieden sich, auf ähnliche Weise nach Motiven in den Basensequenzen der DNA zu suchen. Allein das Mäuse-Genom besteht aus 2,5 Milliarden Basenpaaren, beim Menschen sind es fast 3,3 Milliarden. Entscheidend für deren Wirkung ist nicht nur die Sequenz der entsprechenden vier Buchstaben (A, C, G und T für die beteiligten Basen Adenin, Cytosin, Guanin und Thymin), sondern vor allem die räumliche Anordnung der Basenpaare in der Spirale der DNA-Doppelhelix. Die übersetzten die Forscher in einfache Pixelmuster.

“Für diese Bilddaten stand uns dann das ganze Arsenal der KI-Bilderkenner zur Verfügung, um wiederkehrende Motive zu entdecken“, erläutert Gagneur gegenüber c’t. Die gesuchten Motive sind Bindungsstellen für sogenannte Transkriptionsfaktoren (TF), Proteine, die die Aktivierung von Genen steuern. Ein TF findet sein Motiv, indem er dort exakt hineinpasst wie ein Schlüssel in sein Schloss.

Das eingesetzte neuronale Netz umfasst elf Schichten und insgesamt nahezu 131.000 trainierbare Parameter. Diese Komplexität ermöglicht es, Motive zu mehreren TF gleichzeitig zu suchen, um nicht nur der Verteilung einzelner Fragmente, sondern zugleich ihrem Zusammenspiel und der übergeordneten Syntax auf die Spur zu kommen, wie Gagneur erklärt. Allerdings meldete die KI zunächst nur das Vorhandensein der gesuchten Motive. Erst mit Methoden, die die Entscheidungswege der KI erklären, ließ sich zeigen, an welchen Stellen der DNA die TF tatsächlich anbinden und wie diese Bindungsstellen konkret aussehen. “Die Zurückverfolgung der von der KI erkannten Regeln brachte den Durchbruch“, erklärt Avsec.

Als Trainingsdaten dienten 100.000 Abschnitte einer Mäuse-DNA mit jeweils etwa 1000 Basenpaaren; insgesamt ein Datenvolumen von vier Gigabyte. Darin entdeckte die KI zu vier wichtigen TF neue Bindungsmotive. Man geht davon aus, dass im Mäuse-Genom noch wesentlich mehr Steuerelemente wirken. Für die menschliche DNA rechnen Forscher mit etwa 1500 TF. Unterm Strich gelang es, die Funktion der untersuchten TF zu ermitteln, beispielsweise bei der Selbsterneuerung von Stammzellen, die zugehörigen Motive mit der Genschere zu manipulieren und dadurch die KI-Vorhersagen experimentell zu bestätigen.

Die neuen Erkenntnisse lassen sich in zweierlei Hinsicht auf den Menschen übertragen. Zum einen erwarten die Wissenschaftler, dass sie Bindungsmotive wie in der Mäuse-DNA auch in anderen Organismen finden, insbesondere beim Menschen. Zum anderen ist die eingesetzte KI vielseitig und lässt sich auch für die Analyse menschlicher DNA trainieren. Diese Forschungsarbeiten laufen bereits.

Künftig könnten die jüngst entdeckten Elemente der Genregulation helfen, vererbbare Krankheiten besser zu verstehen und auch zu behandeln. Zudem ließen sich damit die Auswirkungen von Mutationen in einem Tumor einschätzen und personalisierte Krebstherapien verbessern.

c’t Ausgabe 7/2021

Notebooks sind ideal zum Arbeiten, Surfen oder auch fürs Gaming. Unser Ratgeber in c’t 7/2021 hilft Ihnen bei der Auswahl eines passenden Geräts. Wenn Sie Ihren PC lieber selbst zusammenstellen, sollten Sie unseren Test von guten, aber günstigen CPU-Kühlern lesen. c't hat aufgedeckt, dass eine große SEO-Agentur unfreiwillig Firmengeheimnisse und Kunden-Zugangsdaten veröffentlichte. Wir erklären, wie Verschlüsselung heute funktioniert und geben Tipps, wie Sie gefälschte AirPods Pro reklamieren. Dies und noch viel mehr lesen Sie in Ausgabe 7/2021, die ab dem 12. März im Heise-Shop und am gut sortierten Zeitschriftenkiosk erhältlich ist.

(agr)