c't 7/2021
S. 44
Aktuell
DNA-Code

KI findet Gen-Schalter

Neuronale Netze entschlüsseln Code zur Genregulation

Ein deutsch-amerikanischer ­Forscherverbund hat neuronale Netze so trainiert, dass diese eine zentrale Frage der Ent­wicklungsbiologie beantworten: Wie spielt die DNA mit be­stimmten Proteinen bei der ­Genregulation zusammen?

Von Arne Grävemeyer
Nicht nur die Gene, auch der Code zur Genregulation ist in der Basensequenz der DNA versteckt. Eine künstliche ­Intelligenz hat gelernt, diesen Code zu verstehen.
Bild: Matthew Fern / PA / dpa

Forscher kartografieren bereits seit Jahren für viele Organismen die Positionen der Gene in der DNA, doch die Steuerung der Genaktivität ist noch wenig verstanden. An welchen Stellen ist kodiert, welche Gene ein Organismus wann in welchem Gewebe einsetzt und damit die gewebespezifischen Proteine herstellt? Ein interdisziplinäres Team aus Forschern der TU München, des Stowers Institute for Medical Research in Kansas City und der kalifornischen Stanford University hat nun neue Teile dieser komplexen Regulierung in der DNA-Sequenz von Mäusen entdeckt. Mäuse gelten als Modellorganismus, dessen regulatorische Konzepte den menschlichen zumindest ähneln. Ein speziell trainiertes neuronales Netzwerk spürte nun zuvor nicht verstandene Sequenzen auf.

Žiga Avsec, Doktorand im Team vom Professor Julien Gagneur in München, hat dafür, in enger Zusammenarbeit mit Bioinformatikern aus Stanford, ein neues neuronales Netzmodell entwickelt. Base Pair Network (BPNet) ist eine Variante der Convolutional Neural Networks, die vor allem Bilddaten analysieren. Neuronale Netze mit der BPNet-Technik verfolgen einen ähnlichen Bottom-up-Ansatz wie Systeme zur Gesichtserkennung. Diese erkennen Schicht für Schicht zunächst einfache Kanten und Linien, dann in höheren Schichten zusammenhängende Formen und schließlich komplexe Gesichter. Die Forscher entschieden sich, auf ähnliche Weise nach Motiven in den  Basensequenzen der DNA zu suchen. Allein das Mäuse-­Genom besteht aus 2,5 Milliarden Basenpaaren, beim Menschen sind es fast 3,3 Milliarden. Entscheidend für deren Wirkung ist nicht nur die Sequenz der entsprechenden vier Buchstaben (A, C, G und T für die beteiligten Basen Adenin, Cytosin, Guanin und Thymin), sondern vor allem die räumliche Anordnung der Basenpaare in der Spirale der DNA-Doppelhelix. Die übersetzten die Forscher in einfache Pixelmuster.

Kommentieren