Auch Meta stellt ein Protein-Orakel vor
Das neue Sprachmodell "ESMFold" kann die 3D-Struktur von Proteinen sechzigmal schneller vorhersagen, ist dabei aber noch ungenauer als Alphabets "AlphaFold".
- Veronika Szentpetery-Kessler
Eine neue künstliche Intelligenz (KI) könnte die Vorhersage von hochaufgelösten Proteinstrukturen deutlich beschleunigen. Mitte März hat der Technologie-Konzern Meta (Facebook) ein großes Sprachmodell namens "ESMFold" vorgestellt, das die dreidimensionalen (3D) Formen bis zu sechzigmal schneller ermitteln kann als die bisher führende DeepMind-KI "AlphaFold 2.0" der Google-Holding Alphabet. Dabei soll ESMFold zwar ungenauere Ergebnisse liefern, die Abweichungen sind Experten zufolge aber relativ klein.
Die 3D-Struktur von Proteinen gehört zu den wichtigsten Informationen in der Biologie und Pharmazie. Proteine sind gleichsam winzige Bio-Maschinen, die etwa als Baumaterial in Haaren und Nägeln, als Hormone und als Antikörper unsere Körper formen und am Laufen halten. Kennt man die Form von Proteinen, hilft das dabei, ihre biologische Funktion im Körper aufzuklären, ihre Wirksamkeit als Medikamente zu ermitteln und ihre Eignung als Ziele für Medikamente zu prüfen. Wie schon andere Sprachmodelle, darunter etwa ProGen, bestimmt auch ESMFold die 3D-Struktur direkt aus der Reihenfolge der Aminosäure-Bausteine. Welche Aminosäuren aufeinander folgen, ist in der Basenfolge der DNA kodiert. Die Aminosäuresequenz legt fest, wie sich die Kette dreidimensional faltet, da jede Aminosäure verschiedene Seitengruppen mit unterschiedlichen Ladungen trägt, die einander anziehen oder abstoßen.
Sprachmodell findet Muster in Aminosäuresequenzen
Das Sprachmodell muss aber gar nicht wissen, wie die Aminosäuren miteinander wechselwirken. Stattdessen hatte es in Trainingseinheiten mit 138 Millionen Proteinen aus großen Proteindatenbanken gelernt, in den Aminosäuresequenzen Muster zu finden, die mit bestimmten Strukturen korrelieren. Dabei lernte die KI auch, lückenhafte Aminosäureketten zu ergänzen und für fehlende Positionen die wahrscheinlichste Aminosäure zu bestimmen.
Das Neue ist nun, dass ESMFold für die Strukturbestimmung die untersuchte Aminosäuresequenz nicht mehr rechenaufwendig mit anderen Aminosäuresequenzen mit bekannter 3D-Struktur vergleichen muss (multiple sequence alignment, MSA), um aus Ähnlichkeiten auf die Proteinstruktur zu schließen. "Ein sehr interessanter Aspekt von ESMFold ist, dass diese Information jetzt nicht mehr explizit verwendet wird, sondern vom Sprachmodell implizit gelernt wurde", sagt Gunnar Schröder, der am Forschungszentrum Jülich die Forschungsgruppe "Computational Structural Biology" leitet. "Das ist nur scheinbar überraschend", ergänzt Alfonso Valencia vom Barcelona Supercomputing Centre. "Die Logik der Abfolge der Aminosäuren in den bekannten Proteinen ist das Ergebnis eines evolutionären Prozesses, der dazu geführt hat, dass sie die spezifische Struktur aufweisen, mit der sie eine bestimmte Funktion erfüllen."
Frei zugängliche Datenbank mit 3D-Struktur-Vorhersagen
Googles "AlphaFold" und das von der University of Washington entwickelte "RoseTTAFold" setzen auf das erwähnte "multiple sequence alignment". Dabei vergleichen die KIs die Aminosäuresequenz des neu zu untersuchenden Proteins mit den Sequenzen von Proteinen mit bekannter 3D-Struktur. Werden dabei viele ähnliche Sequenzen an ähnlichen Stellen gefunden, in der gleichen Reihenfolge, deutet das auf eine strukturelle oder funktionelle Verwandtschaft der Proteine hin. Daraus lassen sich mit inzwischen atomarer Genauigkeit Rückschlüsse auf die 3D-Struktur des untersuchten Proteins ziehen. AlphaFold hatte im vergangenen Jahr eine frei zugängliche Datenbank veröffentlicht, in der es die 3D-Struktur-Vorhersagen für fast alle der Wissenschaft bekannten Proteine gesammelt hatte: etwa 200 Millionen Proteine von Tieren, Pflanzen und anderen Organismen. Davon waren zu dem Zeitpunkt erst 190.000 Strukturen experimentell, also per Röntgenkristallografie oder Cryo-Elektronenmikroskopie, bestimmt.
Wie die ESMFold-Forscher um Alexander Rives im Fachjournal "Science" schreiben, konnten sie durch die höhere Geschwindigkeit weitaus mehr Proteinstrukturen vorhersagen. Meta AI veröffentlichte den sogenannten "ESM Metagenomic Atlas", der mit 617 Millionen hochaufgelösten 3D-Struktursimulationen dreimal so viele Strukturen enthält als die AlphaFold-Datenbank. Dabei konnten die Forschenden laut eigener Aussage rund 225 Millionen "mit hoher Zuverlässigkeit" vorhersagen. Das hat auch Valencia überzeugt. Auch wenn die Resultate für das vollständige Datenset qualitativ etwas niedriger sind als jene, die mit anderen Methoden ermittelt wurden, so seien sie zumindest für diese 225 Millionen Strukturen vergleichbar.
Lesen Sie auch
Eine KI, die leuchtende Enzyme baut
Ein zweiter großer Vorteil der ESMFold-Methode sei, dass sie auch die Strukturvorhersage für bisher gänzlich unbekannten Proteinen aus Umweltproben erlaubt. Zudem kann "die neue Methode direkt auf die Vorhersage der Folgen von Punktmutationen angewendet werden; dies lag außerhalb des Anwendungsbereichs früherer Methoden und hat direkte Auswirkungen auf biomedizinische Anwendungen", so Valencia weiter.
(mack)