KI-System DALL·E: Ein Alleskönner für Kreative

Das KI-System DALL·E erstellt Bilder aus textuellen Beschreibungen. Die fotorealistischen Ergebnisse sind beeindruckend.​

In Pocket speichern vorlesen Druckansicht 27 Kommentare lesen
Lesezeit: 21 Min.
Von
  • Vladimir Alexeev
Inhaltsverzeichnis

Laokoon war der erste bekannte Securityspezialist: Er erkannte, dass das Innere des Trojanischen Pferdes rappelvoll mit griechischen Helden war. Doch die Götter schickten zwei Seeschlangen, die den antiken Sicherheitsexperten im Nu erledigten, und so war es um Troja geschehen.

Die berühmte Laokoon-Gruppe stellt den armen Whistleblower mit seinen Söhnen im Würgegriff der Schlangen dar. Wie sähe es aus, wenn ein griechischer Bildhauer die Marmorstatue eines IT-Fachmanns nach dem Vorbild der Laokoon-Gruppe erstellt hätte? Das KI-System DALL·E 2 zeigt mögliche Antworten.

Administrator nach Art der Laokoon-Gruppe (3 Bilder)

Im Januar 2021 erregte OpenAI auch jenseits der Machine Learning Communities großes Interesse: Das Unternehmen stellte DALL·E und CLIP der Öffentlichkeit vor. Ersteres war ein Meilenstein in der Welt der multimodalen Ansätze, denn das Framework aus mehreren neuronalen Netzen erzeugte fotorealistische Bilder nach einfachen Texteingaben. Daher wurde es von OpenAI ironisch DALL·E benannt als Kofferwort aus den Namen des berühmten Surrealisten und des sympathischen Roboters aus dem Pixar-Film WALL-E.

Um die Verwirrung um die Nummern hinter dem Namen etwas aufzuklären: DALL·E (im Nachhinein auch als DALL·E 1 bekannt) war nie öffentlich zugänglich. Die komplett überarbeitete Version mit neuer Architektur hat OpenAI im April 2022 als DALL·E 2 veröffentlicht. Mittlerweile vergisst das Unternehmen gerne die 2 und spricht beispielsweise zum Start der Beta lediglich von DALL·E.

DALL·E 1 war nicht das erste ML-Modell, das Texte semantisch auswertet und ins Visuelle überträgt. Es ist nicht das erste Text-zu-Bild-KI-Modell. Es gab vorher Implementationen, die beispielsweise auf Basis von Generative Adversarial Networks (GAN) arbeiteten, wozu eine Gruppe rund um Ian Goodfellow 2014 einen Artikel veröffentlicht hat. GAN bestehen aus zwei künstlichen neuronalen Netzen: Generator und Discriminator, die an Unmengen von Bildmaterial trainiert wurden. Der Generator versucht Bilder zu erstellen, die visuell möglichst nahe am Trainingsdatensatz sind. Der Discriminator hat die Aufgabe, die Ergebnisse als Fakes zu entlarven. Nach dem iterativen Gegenspiel entstehen Bilder, die der Discriminator nicht mehr als generiert erkennt.

Zwei Jahre später veröffentlichten Forschende der Michigan University und des Max-Planck-Instituts für Informatik (Saarbrücken) 2016 das Paper "Generative Adversarial Text to Image Synthesis". Die Idee dahinter ist, die visuellen Konzepte aus dem Text in Pixel zu übertragen. Die Zuordnung Text zu Bild war bereits im Trainingsdatensatz vorhanden, deren Ersteller manuell alle visuellen Daten mit Labels versehen hatten. Die Qualität des Verfahrens war noch weit von einer fotorealistischen Darstellung entfernt. Die im Paper beschriebene Vorgehensweise wurde mehrfach implementiert, unter anderem in der Webanwendung Text to Image API von Scott Ellison Reed. Das System erstellte interessante Bilder für einfache Eingaben. Die Ergebnisse für komplexe Textvorlagen waren jedoch unzureichend. Das lag wohl auch daran, dass der Datensatz für das Training vor allem Abbildungen von Tieren und Gegenständen enthielt.

Die Webanwendung Text to Image (3 Bilder)

Text to Image: Der Prompt "bird" erzeugte etwas Vogel-ähnliches.

Fünf Jahre später erschien mit DALL·E eine völlig neue Anwendung. Statt GANs setzte OpenAI hierfür seinen GPT-3-Transformer ein. Transformer-Modelle, die neben OpenAI unter anderem Google entwickelt hat, arbeiten mit einem Aufmerksamkeitsmechanismus (self-attention): Sie achten auf die eingegebenen Daten (Prompts) und auf eigene Ergebnisse. Dadurch entstehen kohärente Inhalte. Das gigantische NLP-Model GPT-3 (Generative Pre-trained Transformer) von OpenAI schreibt die in sich logischen Texte mit inhaltsrelevanten Verknüpfungen nicht ohne literarischen Touch.

Dabei kann der GPT-3-Transformer unterschiedlichste Inhalte begreifen, miteinander verknüpfen und eine in sich geschlossene Schlussfolgerung erstellen. An folgendem Beispiel wird deutlich, dass das System erstens den Schreibstil von Goethe kennt, zweitens weiß, was eine TV-Werbung ist, und drittens in der Lage ist, diese verschiedenen Konzepte organisch miteinander zu verbinden:

Der Prompt des Autors ist fett markiert, den Rest hat GPT-3 erstellt.

Die erste Version von DALL·E nutzte die Version von GPT-3 mit 12 Milliarden Parametern. Sie lernte im Training, Bilder aus Prompts zu generieren. Die Basis war ein Datensatz von Bild-Text-Paaren. Für die Zuordnung zwischen Bild und Text, und für das Ranking der besten visuellen Ergebnisse kam mit CLIP ein weiteres künstliches neuronales Netz von OpenAI zum Einsatz. Anders als DALL·E ist es als Open-Source-Software verfügbar und fand viele Anhänger unter KI-Künstlern.

Die Fähigkeiten von DALL·E haben bereits 2021 überzeugt: Das Modell verstand die Texteingaben und generierte passende Bilder.

Das Beispiel "Ein Sessel in Form einer Avocado" erreichte große Bekanntheit in Blogs und Medien.

(Bild: OpenAI)

DALL·E 1 war der erste Schritt des Forschungsprojektes von OpenAI und erreichte nie das Licht der Öffentlichkeit. Nur eine kleine Gruppe von Forschern und Community Ambassadors, zu denen der Autor dieses Artikels gehört, hatten Zugriff zu dem System. Die Kenntnisse und Fähigkeiten von DALL·E überraschten von Anfang an.

DALL·E erstellt ein passendes Bild zu dem Prompt "Mona Lisa is drinking wine with da Vinci".

Das Ergebnis der Mona Lisa, die mit da Vinci Wein trinkt, zeigte eine narrative Kraft des Systems: Das elegant gehobene Weinglas mit der darin gespiegelten Gioconda lässt sich durchaus als Referenz auf Selbstbildnis-Theorien von da Vinci verstehen.

Der Autor hat noch weitere Bilder mit DALL·E 1 erstellt. (4 Bilder)

Prompt: "Statue of Keanu Reeves in style of Michelangelo"

DALL·E 1 hatte einige Begrenzungen:

  • die Auflösung war niedrig: 256x256 px,
  • es war nur auf englischsprachige Kontexte trainiert, und jede unklare Eingabe produzierte einfach Naturbilder und
  • die Bildqualität war nicht die beste.

Im Winter 2022 hat OpenAI die neuere Version von DALL·E demonstriert, die deutlich leistungsstärker war.