KI: Sprachmodell ermöglicht Protein-Evolution im Schnelldurchlauf
EvolutionaryScale kann gemäß Prompts Proteine mit gewünschten Eigenschaften entwerfen, indem es simultan die Sequenz, Struktur und Funktion entwickelt.
Eine neue künstliche Intelligenz (KI) namens ESM3 kann Eiweiße entwerfen, für die die Evolution hunderte Millionen Jahre gebraucht hätte. Das schreibt EvolutionaryScale, ein von ehemaligen Meta-Mitarbeitern gegründetes US-Startup, in einem Preprint auf der Plattform BioRxiv.
Ihr generatives maskiertes Sprachmodell sei nicht nur eine der größten biologischen KIs. Es sei auch das erste Modell, das nach Eingabe von Prompts simultan die Aminosäuresequenz, die 3D-Struktur und auch die Funktion eines Proteins mit einer gewünschten Fähigkeit erarbeiten könne. Zukünftige Einsatzgebiete reichten von der Medikamentenentwicklung über Materialwissenschaften bis zu Proteinen für die Speicherung von Kohlendioxid.
Lesen Sie auch
GenomDE: Modellprojekt zur Genomsequenzierung gestartet
Die 3D-Struktur von Proteinen gehört zu den wichtigsten Informationen in der Biologie und Pharmazie. Proteine sind gleichsam winzige Bio-Maschinen, die etwa als Baumaterial in Muskeln, Haaren und Nägeln, als Hormone und als Antikörper unsere Körper formen und am Laufen halten. Kennt man die Form von Proteinen, hilft das dabei, ihre biologische Funktion im Körper aufzuklären, ihre Wirksamkeit als Medikamente zu ermitteln und ihre Eignung als Ziele für Medikamente zu prüfen.
Viele lebensrettende Medikamente sind Proteine, zum Beispiel das Insulin für Diabetiker sowie künstliche Antikörper gegen Krebs und auch gegen schwere Atemwegsinfekte durch RSV (respiratorisches Synzytial-Virus). Gerade in der Medizin will man allerdings häufig auch gänzlich neue Proteine mit gewünschten Eigenschaften synthetisieren, anstatt mühsam nach ihnen zu suchen.
Maskierung über drei Ebenen hinweg
Für diese Neusynthese setzt EvolutionaryScale bei ESM3 auf ein maskiertes Sprachmodell. Das Modell kann nicht nur in einer Kategorie auf fehlende (maskierte) Information oder Token schließen, indem es den Kontext wie in einem Text in beide Richtungen prüft, sondern auch über drei Kategorien hinweg. ESM3 wurde mit Proteindaten trainiert, bei denen alle drei Kategorien bekannt waren – insgesamt 2,8 Milliarden Aminosäure-Sequenzen, 236 Millionen Proteinstrukturen und 539 Millionen Proteinfunktionen.
Die Entwickler legten für die Sequenz, 3D-Struktur und Funktion der Proteine jeweils ein eigenes Alphabet an und entwickelten eine Methode, wie man jede 3D-Struktur als Buchstabenfolge beschreiben kann. Wurden dann in allen drei Kategorien wechselnde Anteile der Informationen maskiert, lernte das Sprachmodell nicht nur den Kontext innerhalb der einzelnen Ebenen, sondern auch zwischen den Ebenen zu verstehen.
Synthetische Varianten eines grün fluoreszierenden Proteins
Um die Leistungsfähigkeit von ESM3 unter Beweis zu stellen, ließ das Start-up das Sprachmodell synthetische Varianten des grün fluoreszierenden Proteins (GFP) entwerfen, die ebenfalls gut leuchten. GFP ist ein Naturprotein, das in verschiedenen Varianten Meerestiere wie Quallen und Korallen zum Leuchten bringt und zu den wichtigsten Molekülen in der molekularbiologischen Forschung gehört. Seine Entdeckung wurde 2008 mit dem Chemie-Nobelpreis belohnt. Mithilfe von GFP lassen sich zum Beispiel Moleküle in lebenden Zellen markieren, um biologische Vorgänge zu beobachten, die sonst nicht zugänglich wären, zum Beispiel die Entwicklung von Nervenzellen im Gehirn oder wie sich Krebszellen ausbreiten.
Die beste künstliche GFP-Variante "esmGFP" von ESM3 leuchtete nun ähnlich hell wie eine natürliche GFP-Variante aus den Trainingsdaten. Die gute Leuchtfähigkeit des Neuentwurfs beruhte auf einem Genbauplan, der überraschend wenig mit dem Plan der zugrundeliegenden Naturvorlage übereinstimmte, nämlich nur zu 58 Prozent. "Ausgehend von der Diversifizierungsrate von GFPs in der Natur schätzen wir, dass die Erzeugung eines neuen fluoreszierenden Proteins der Simulation von über 500 Millionen Jahren Evolution entspricht", schreiben die ESM3-Entwickler.
Alex Rives, EvolutionaryScales leitender Wissenschaftler, hatte zuvor mit seinen Kollegen an früheren Versionen des ESM-Modells beim Meta-Konzern gearbeitet. Nachdem Meta allerdings seine Arbeit in diesem Bereich letztes Jahr eingestellt hat, setzten die Entwickler für die Weiterentwicklung auf Selbstständigkeit. Mit Erfolg: Zeitgleich mit der Bekanntgabe des neuen fluoreszierenden Proteins vermeldete das Start-up auch eine Investitionsspritze in Höhe von 142 Millionen Dollar, um Verbindungen in die Anwendung zu bringen.
Parallel dazu veröffentlichte EvolutionaryScale auch eine kleinere, offen zugängliche Version für Wissenschaftler, die nicht die volle Funktionalität enthält. Forscher, wie Martin Pacesa von der Eidgenössischen Technischen Hochschule in Lausanne, freuen sich darauf, das Sprachmodell ausgiebig zu testen. Der Strukturbiologe warnte aber gleichzeitig gegenüber dem Fachjournal "Nature", dass akademische Gruppen keine eigene Vollversion replizieren könnten, weil das enorme Rechenressourcen erfordern würde.
(mack)