KI-Bildsynthese: M-VADER erstellt Bilder aus beliebigen Text- und Bildvorgaben

Das KI-Modell von Aleph Alpha erlaubt Text-zu-Bild-Synthese, Bild-zu-Bild-Synthese und erstellt Bilder nach präzisen Vorgaben aus kombiniertem Text-Bild-Input.

47

(Bild: Aleph Alpha)

09.12.2022, 12:11 Uhr

Lesezeit: 6 Min.

Developer

Von

Silke Hahn

Das Heidelberger KI-Forschungsunternehmen Aleph Alpha hat in Zusammenarbeit mit der TU Darmstadt ein KI-System erstellt, das Text- und Bildvorgaben in bebliebiger Kombination in bildlichen Output umsetzt. M-VADER nutzt einen multimodalen Encoder (S-MAGMA) und eine feingetunte Version von Stable Diffusion, die Kontexte aus Text-, Bild- oder kombinierten Text- und Bildvorgaben als Prompt akzeptiert. So soll es unter anderem möglich sein, mit M-VADER ein Ausgangsbild mit weiteren Bildattributen auszustatten und dazu Anweisungen zu Stil und Bildaufbau der gewünschten Komposition in Schriftsprache vorzugeben.

Aus Astronaut mach Catronaut

Auch handgezeichnete Skizzen vermag das Modell einzubeziehen und mit weiteren Bildern sowie Textprompts zu einem kohärenten Ergebnis zusammenzuführen, wie Beispiele im Forschungspaper zeigen: Eine herzförmige Pizza auf Holzuntergrund entsteht durch das Bild einer runden Pizza und einer Holztextur mit zwei Textprompts, die die Form und Positionierung der Pizza definieren; ein Eisbär wird mit einem Schal versehen, indem Fotos kombiniert werden mit der Anweisung, dass das Tier das Kleidungsstück tragen soll und als Cartoon darzustellen ist.

Examples of image generation with multimodal guidance. Output images (right) are composed from the combination of interleaved images and text shown on the left. — Multimodal geführte Bildsynthese aus kombinierten Text- und Bildvorgaben.

(Bild: Aleph Alpha)

Ein leerer Strand (Foto) wird mit der Zeichnung einer Palme (Grafik) gepromptet und das KI-System textlich aufgefordert, die kombinierte Szene fotorealistisch darzustellen. Last, but not least kombiniert M-VADER einen Astronauten (Foto) mit einer Katzenkopfskizze (Foto einer rudimentären Strichzeichnung) per Textanweisung zu einer fotorealistischen Szene, bei der der Astronaut einen Katzenkopf und -körper hat ("Catronaut"). Hier hat das System eigenständig den Körper in Richtung Katzenform weitermodelliert mit Pfoten unter den Schutzhandschuhen, was weder im Text- noch im Bildprompt direkt vorgegeben war, einem menschlichen Betrachter aber spontan sinnvoll erscheint und das Gesamtbild stimmiger macht.

Bildsynthese: beliebig kombinierbare Text- und Bildvorgaben

M-VADER ist den Autoren des begleitenden Forschungspapers zufolge das erste Modell, das die Lücke zwischen Bild- und Textvorgaben schließt. Dabei sollen Textvorgaben in beliebiger Länge möglich sein, und das zehnköpfige Forschungsteam um Samuel Weinbach und Marco Bellagente (beide Aleph Alpha) sowie Björn Deiseroth (dualer Doktorand an der TU Darmstadt) hat Stable Diffusion für Cross-Attention feinabgestimmt.

Den Open-Source-Bildgenerator Stable Diffusion gibt es seit Kurzem auch in einer Version, die einzelne Bilder zum Konditionieren des Diffusionsprozesses verwendet, aber derweil noch nicht in Kombination mit textlichen Anweisungen (Single Modality: das Prompten funktioniert hier wahlweise nur mit einer Text- oder einer Bildvorgabe, nicht mit Kombinationen von beidem). Ein Output-Vergleich zwischen M-VADER und Stable Diffusion zur Stilvorgabe "Schwarz-Weiß-Zeichnung" macht das Potenzial kombinierter Bild- und Textvorgaben greifbar:

Style modification of a base image. For Stable Diffusion, we begin the diffusion process from the noised base image and guide the diffusion process with a text prompt. The strength parameter s denotes the relative level of input noise, where s = 0 and s = — Der Stil eines Ausgangsbildes wird modifiziert, für Stable Diffusion ausgehend vom verrauschten Bild mit einer textgesteuerten Guidance. Dabei hat das Aleph-Alpha-Team den Strength-Parameter graduell verschoben (von 0,6 zu 0,8). s = 0 entspricht keinem Rauschen und s = 1 dem Bildrauschen in voller Stärke. Den Output stellt das Team dem Ergebnis aus M-VADER gegenüber, den die Forscher aus reinem "Noise" durch multimodales Prompten erhielten.

(Bild: Aleph Alpha)

Für Illustrationsarbeiten wie das Erstellen von Katalogen und Stockbildern dürfte die Neuerung erheblichen praktischen Nutzen haben, wie erstes Feedback auf Twitter betont: Die Kombination von Bildvorgaben und Textanweisungen auf der Input-Seite befähigt User dazu, den Output genauer und direkter zu steuern als mit reinen Textbeschreibungen bislang möglich war. Zudem kann man auf die Weise wohl rascher zum gewünschten Ziel gelangen und Bilder leicht nachjustieren. Auf den ersten Blick wirkt das System für die Nutzerseite intuitiv. Das Paper führt Beispiele für Bildvariation und auch für rein bildkombinatorisches Prompten auf. Interessanterweise ändert bereits die Reihenfolge der Vorgaben des Input-Prompts die Gewichtung der Bildbestandteile, wie folgendes Beispiel mit einem Pferd und Feuer (versus Feuer und Pferd) veranschaulicht:

Image composition with the same pair of input figures, prompted in different orders — Die Reihenfolge der Bildvorgaben ändert die ausgegebene Bildkomposition: Promptet man das Pferdebild zuerst, steht es auch im Output im Vordergrund (bei einem zahm wirkenden oder gar erloschenen Lagerfeuer). Promptet man das Feuer zuerst, schaut die Output-Szene bedrohlicher aus mit einem im Verhältnis zum Pferd deutlich größeren und wilderen Feuer, das dabei ist, außer Kontrolle zu geraten.

(Bild: Aleph Alpha)

Technische Bestandteile und Gewichtung

Unter der Haube befindet sich das Embedding-Modell S-MAGMA, ein 13 Milliarden Parameter großer multimodaler Decoder mit Elementen des Aleph-Alpha-eigenen Vision-Sprach-Modells MAGMA, der ein Feintuning für die semantische Suche erhalten hat. Neben dem Image-Captioning-Modell MAGMA sind Bestandteile eines symmetrischen Modells für semantische Suche (Luminous-Explore) in M-VADER eingegangen. Eine Gewichtung der einzelnen Komponenten des Guidance-Prompts findet statt und jeder Bestandteil der Text- und Bildvorgabe erhält einen "Attention Score". Damit erlaubt das Modell es, die Komposition des gewünschten Outputs präzise zu steuern.

M-VADER architecture for training. We condition the denoising model through cross attention with embeddings from a Decoder Language Model augmented with multimodal components (MAGMA) and finetuned biases for semantic search. In training we use either the — Das Modell zum Bildentrauschen (Denoising) hat das Team mittels Cross-Attention mit den Embeddings eines Decoder-Sprachmodells mit einigen multimodalen Komponenten (MAGMA) angereichert und für die semantische Suche feinjustiert.

(Bild: Aleph Alpha)

Dreiteilige Architektur

Die Architektur umfasst im Wesentlichen drei Komponenten: ein vortrainiertes Sprachmodell (LLM), feingetunte Prefix- und Bias-Elemente für multimodalen Input und semantische Einbettungen sowie ein Diffusionsmodell zum Erzeugen von Bildern als Output, den die vom Sprachmodell hervorgebrachten Embeddings steuern und näher bestimmen. Details hierzu lassen sich dem Architekturkapitel im Forschungspaper entnehmen, das bei arXiv.org hochgeladene Paper erläutert auch das durchgeführte Training ausführlich. Den Beitrag zur laufenden Forschung im Bereich generativer KI-Technik schlüsselt das Aleph-Alpha-Team im Bericht auf.

Mit S-MAGMA stellt es ein multimodales Decoder-Embedding-Modell bereit, mit M-VADER (einem feingetunten Abkömmling von Stable Diffusion) ein Diffusionsmodell für die KI-Bildsynthese, das multimodaler Steuerung folgt. Zudem dürfte ein wesentlicher Beitrag die Methode sein, mit der sich die relative Bedeutung der einzelnen Bestandteile des multimodalen Guidance-Prompts gewichten lässt, um qualitative Änderungen an den erzeugten Bildern gezielt hervorzurufen.

M-VADER: image synthesis with multimodal context. The guidance prompt, comprised of interleaved images and text, is embedded using a multi- modal decoder, S-MAGMA. The output of S-MAGMA is used to condition the generation process of a fine-tuned version o — Bildsynthese mit multimodalem Kontext: Die Grafik veranschaulicht die Funktionsweise von M-VADER.

(Bild: Aleph Alpha)

Technisch lassen sich zurzeit zwei Bilder kombinieren, und bei der Bildsynthese ist "multimodaler Kontext" (also das Prompten mit Bild- und Textvorgaben) möglich. Zudem lassen sich Bilder mit der Methode durch das Verwandeln von zufälligem Bildrauschen in ein Output-Bild variieren.

Lesen Sie auch

KI-Effizienz: Aleph Alpha und Graphcore erzielen Durchbruch beim Sparse Modeling

Text-zu-Bild: Stable Diffusion 1.5 mit verbesserten Autoencodern erschienen

"KI? Ich bin lieber Teil davon als abgehängt": Interview mit einem Investor

Europas schnellstes kommerzielles KI-Rechenzentrum feierlich in Berlin eröffnet

Missing Link: Was wir über die Fairness der Welt von moderner KI lernen können

M-VADER auf einen Blick im Forschungspaper

Das Forschungsteam von Aleph Alpha hat – vertreten durch Senior Researcher Robert Baldock und CEO sowie Co-Founder Jonas Andrulis – die Ergebnisse Anfang Dezember 2022 in New Orleans auf dem von MILA Quebec, Hugging Face und Stability AI ausgerichteten Scaling Laws Workshop der NeurIPS (Conference and Workshop on Neural Information Processing Systems, vormals NIPS) dem internationalen Fachpublikum vorgestellt. Das Forschungspaper folgte am 7. Dezember bei arXiv.org.

Wer sich tiefergehend für die Architektur und verwendete Methode interessiert, wird in dem Paper fündig ("M-VADER: A Model for Diffusion with Multimodal Context"). Das Forschungsteam von Aleph Alpha und dem Artifical Intelligence and Machine Learning Lab der TU Darmstadt geht darin detailliert auf die Trainingsmethode, den Aufbau und die verwendete Fachliteratur ein und veranschaulicht die Fähigkeiten des KI-Systems sowie die Ergebnisse mit Illustrationen.