Hintergrund: Wie Googles AlphaFold die Molekularbiologie revolutioniert

Googles DeepMind hat eine ganz harte Nuss der Biologie geknackt: Es ermittelt die 3D-Strukturen von Proteinen, die als Grundlage aller Lebensfunktionen gelten.

In Pocket speichern vorlesen Druckansicht 111 Kommentare lesen

(Bild: CASP)

Lesezeit: 6 Min.
Von
  • Dusan Zivadinovic
Inhaltsverzeichnis

Alles Leben gründet auf den vielfältigen Funktionen von Proteinen und ihre Funktionen gründen wiederum auf den 3D-Formen der Proteine. Von vielen kennt man bisher aber nur die Sequenz der Aminosäuren, aus denen sie bestehen (die lassen sich oft einfach aus dem Erbgut ableiten), die 3D-Struktur ist hingegen unbekannt.

Die KI-Anwendung AlphaFold der Google-Tochter DeepMind hat nun in einem Wettbewerb eine bemerkenswerte Leistung gezeigt: Von rund 100 Sequenzen berechnete AlphaFold gut zwei Drittel mit einer so hohen Güte wie sie bisher nur teure und aufwändige Analysen lieferten. Im Vergleich zu anderen im Wettbewerb angetretenen KI-Methoden erwies sich AlphaFold als haushoch überlegen. Fachleute bewerten die Leistung daher als sehr hoch und allgemein als Durchbruch, der Biowissenschaften und Medizin erheblich voranbringen wird. Denn wenn man die Form der Proteine kennt, versteht man, wie sie in den Zellen zusammenwirken und kann Medikamente hinsichtlich der räumlichen Ausdehnung und Ladungsverteilung gezielt für bestimmte Proteine entwickeln.

Die Bestimmung der 3D-Struktur einer Aminosäuresequenz gehört zu den großen Herausforderungen der Biologie. Jede Sequenz kann nämlich eine Vielzahl von 3D-Formen annehmen, aber bei jedem Protein sind nur wenige 3D-Formen biologisch aktiv.

Beispielsweise lässt sich das Spike-Protein des SARS-Cov-2-Virus auch völlig anders falten als man es bei dem Virus vorfindet – aber die übrigen Formen funktionieren nicht als Türöffner in die Zelle und kommen nur bei deformierten Virenpartikeln vor (etwa durch Hitze oder UV-Strahlung). Die richtige 3D-Struktur entsteht in biologischen Systemen oft schon bei der Proteinbiosynthese, weil sie die biochemischen Bedingungen in den Zellen begünstigen. Aber für die weitaus meisten Proteine lautet das große Rätsel: In welcher der vielen 3D-Formen liegen sie in der Zelle vor?

Die Forschung konnte diese Frage bisher nur mittels jahrelangen Laborexperimenten mittels der Röntgenkristallographie und der Kryo-Elektronenmikroskopie (Kryo-EM) gut genug beantworten. Man möchte aber die 3D-Struktur möglichst vieler Proteine kennen, um Lebensvorgänge genau zu verstehen und Krankheiten gezielter zu behandeln als bisher.

Die Röntgenkristallographie lieferte die ersten vollständigen Strukturen von Proteinen ab den 1950er Jahren. Dabei werden Röntgenstrahlen durch die kristallisierten Proteine hindurch gelenkt, oft ist aber schon die Herstellung eines Proteinkristalls die erste große Hürde. Die Röntgenstrahlen werden beim Durchgang durch den Kristall gebeugt und anhand der Beugungsbilder, die zuweilen an Rorschachmuster erinnern, berechnet man dann die Atomkoordinaten des Proteins. In den vergangenen zehn Jahren wurde die Röntgenkristallographie zunehmend von der Kryo-EM verdrängt. Mit beiden Techniken wenden Forschungsgruppen oft Jahre für ein einziges Protein auf und sind trotzdem nicht immer erfolgreich.

Unter anderem deshalb hat man schon vor Jahrzehnten begonnen, Computeralgorithmen zu entwickeln, um die 3D-Struktur anhand der Aminosäuresequenz zu ermitteln. Diese Ansätze führten aber zu nur mäßigen Erfolgen. Seit 1994 treffen sich alle zwei Jahre Forschungsteams aus aller Welt unter dem Dach der Organisation Critical Assessment of Techniques for Protein Structure Prediction (kritische Bewertung von Techniken zur Proteinstrukturvorhersage) und befeuern sich gegenseitig bei einer Challenge, einem mehrere Monate anhaltenden Wettbewerb.

Bei der aktuellen Challenge, die am 30. November endete, hat das AlphaFold-Programm von DeepMind die Form von etwa zwei Dritteln der Proteine mit einer Genauigkeit bestimmt, die mit Ergebnissen von Laborexperimenten vergleichbar ist. Auf einer Skala von 0 bis 100 Punkten erreichte AlphaFold in zwei Dritteln der Fälle um die 90 Punkte, während die Anwendungen der übrigen Teams meist nicht über 75 Punkte hinauskamen. Auch die schwächeren Resultate von AlphaFold konnten sich noch sehen lassen, schreiben die CASP-Organisatoren.

Die erste Implementierung von AlphaFold, die schon 2018 die besten Resultate auf der CASP-Challenge lieferte, hat KI-Methoden auf strukturelle und genetische Daten angewendet, um den Abstand zwischen Aminosäurenpaaren in einem Protein vorherzusagen. In einem zweiten Schritt erzeugte AlphaFold dann ein Konsens-Modell des Proteins, erklärte John Jumper von DeepMind, der das Projekt leitet.

Mit diesem Ansatz stieß das DeepMind-Team aber immer wieder an Grenzen und gab ihn schließlich auf. Im 2020er AlphaFold nutzt ein neuronales Netzwerk zusätzliche Informationen über die physikalischen und geometrischen Bedingungen, von denen abhängt, wie sich ein Protein faltet. Und anstatt Beziehungen zwischen Aminosäuren zu ermitteln, sagt das Netzwerk die endgültige Struktur einer Aminosäuresequenz voraus. "Es ist ein um einiges komplexeres System", erklärte Jumper.

Googles DeepMind hat so zwar den Sieg beim Vergleich davongetragen, aber der Erfolg gründet auf Erkenntnissen früherer CASP-Treffen, sowohl vom DeepMind-Team als auch von anderen Teilnehmern. Andere CASP14-Teams haben ebenfalls einige hochpräzise Strukturen hergestellt, wenngleich längst nicht so viele wie AlphaFold.

Dr. Kryshtafovych, der zu den Organisatoren der CASP-Konferenz gehört, sagte: "Was AlphaFold erreicht hat, ist wirklich bemerkenswert und die heutige Meldung ist ein Sieg für DeepMind. Aber es ist auch ein Triumph für die Teamwissenschaft. Die Möglichkeit, die Form von Proteinen schnell und genau zu analysieren, hat das Potenzial, die Biowissenschaften zu revolutionieren."

Laborexperimente wird AlphaFold dennoch nicht ersetzen. Aber nun ist es eher eine Frage von Wochen oder Monaten, bis man zumindest grob auf die Struktur eines Proteins rückschließen kann. Davon dürfte die evolutionäre Analyse von Proteinen profitieren, denn nun lassen sich Gendatenbanken durchforsten, um nicht nur die Aminosäuresequenz von codierenden Erbgutabschnitten abzulesen, sondern gleich das funktionale Element, also das Protein in seiner biologisch aktiven Form abzuleiten. Dafür muss ein Protein nicht mehr aufwändig aus lebenden Systemen isoliert werden.

So kann man auch Erbgutvarianten genauer untersuchen als bisher. In den weltweiten Datenbanken diverser Lebewesen sind zwar viele Mutationen verzeichnet, aber oft ist unklar, ob und welche Auswirkungen sie auf die 3D-Struktur der Proteine haben, die sie kodieren. Dem kann man nun mit AlphaFold auf den Grund gehen.

(mho)