KI-System DALL·E: Ein Alleskönner für Kreative

Seite 2: Der Nachfolger DALL·E 2

Inhaltsverzeichnis

Im April 2022 erschien DALL·E 2 offiziell und war zunächst nur über eine Warteliste zugänglich. Eine Woche nach der Veröffentlichung waren auf der Liste 100.000 Anfragen und einige Monate später über eine Million.

DALL·E 2 war hinsichtlich der kreativen und visuellen Qualität um Längen besser als der Vorgänger. Mit der soliden Auflösung 1024x1024 und mehrsprachiger Textverarbeitung zog das neue Modell alle Register des Visuellen: von fotorealistischen Portraits bis zur Simulation von 3D Renderings.

Das Prinzip der Bildgeneration bei DALL·E 2 läuft vereinfacht folgendermaßen ab:

  1. Der Prompt läuft über den Text Encoder, der ihn in den Repräsentationsraum projiziert. Dort ordnet CLIP die textuelle und die visuelle Ebene paarweise zu. Das neuronale Netz ist darauf trainiert festzustellen, inwieweit eine Textbeschreibung zu einem Bild passt. Der Schritt steht für das Semantisieren der Textebene in Bezug auf das Visuelle.
  2. Es entsteht ein sogenanntes Prior: kein fertiges Bild, sondern lediglich eine Bildrepräsentation. Dabei kommt mit GLIDE ein Diffusionsmodel von OpenAI zum Einsatz. Diese Art der Modelle gab es bereits zuvor: 2020 hat eine Gruppe der UC Berkeley die ersten Versuche unternommen, Fotorealismus zu schaffen. Dabei trainierte sie ein künstliches neuronales Netz mit Fotos, die sie so lange mit immer mehr Rauschen belegten, bis nichts mehr erkennbar war. Danach kehrten sie den Vorgang um, sodass das System aus dem Rauschen fotorealistische Bilder nach Vorgaben schuf.
  3. Der Prior mit der Text-Bild-Semantik generiert über Diffusionsumkehrung eine Reihe von Bildern, die das System wiederum mit CLIP semantisch sortiert und die die aus seiner Sicht besten als Ergebnis anzeigt.

Der gesamte Prozess dauert etwa 20 Sekunden für sechs bis zehn Bilder. Bei DALL·E 1 hatte das Generieren von 25 Bildern etwa 60 Sekunden gedauert.

Die kreativen Möglichkeiten von DALL·E 2 sind fast grenzenlos und die weltweite wachsende DALL·E Community tauscht im internen Discord-Channel immer neue Entdeckungen aus. Vermutlich kratzen die heutigen Umsetzungen dabei lediglich an der Oberfläche des Modells.

Das User Interface des Systems ist minimalistisch: Es gibt lediglich eine Kommandozeile zur Texteingabe. Alternativ lässt sich ein Bild zum Bearbeiten hochladen.

In der Oberfläche kann man sich auf Prompt Design konzentrieren.

Der oben genutzte Prompt "Mona Lisa is drinking wine with da Vinci" erzeugt zwar immer noch eine Abbildung der Gioconda ohne Maestro, dafür jedoch in überraschend guter Qualität.

DALL·E 2 erstellt die Mona Lisa mit einem Glas Wein.

Das Weinglas ist im Vordergrund mit korrektem Flüssigkeitspegel zu sehen – vermutlich wurden die Bilder mit Weingläsern im Datensatz auf konventionelle Weise horizontal aufgenommen. Mona Lisa ist im unscharfen Bokeh-Hintergrund mit ihren (und da Vincis) Wahrzeichen wie den als Sfumato bezeichneten, rauchig-hauchdünnen Farbübergängen.

DALL·E kann auch fotorealistische Bilddarstellung. Das Ergänzen des Prompts mit Objektivspezifikationen verbessert die Qualität der Resultate. Vermutlich gehören die Metadaten der Fotoaufnahmen zu den Inhalten, an denen GLIDE und CLIP trainiert wurden.

Das Bild entstand mit dem Prompt "A portrait of a dog in a library, Sigma 85mm f/1.4"

DALL·E ist in der Lage, künstlerische Richtungen, Bewegungen und Stile zu simulieren. Interessant ist jedoch nicht der typische Style Transfer. In vielen Fällen ist es eine Art "künstlerische Essenz", die der DALL·E Transformer aufgreift. Bei der Angabe "im Stil von Carl Spitzweg" beispielweise entstehen nicht unbedingt die dem Meister des Komischen eigenen Ölmalereien. Stattdessen mischt das System dem Werk die Ironie des Künstlers bei.

Beispiele für den Prompt "AI artist in Disbelief, in Style of Spitzweg" (5 Bilder)

Eine andere Kohärenz des Transformers zeigt sich beim Versuch, die kreativen Prinzipien eines Künstlers auf einen gänzlich fremden Inhalt zu übertragen. Die kongeniale Verbindung von Inhalten ist vergleichbar mit den textuellen Kombinationen im oben aufgeführten fiktiven Text von Goethe zur TV-Werbung.

Der italienische Maler Giuseppe Arcimboldo war für seine collagenartige Portraits bekannt, in denen die Gesichter aus angeordneten Gegenständen bestanden.

Vertumnus von Arcimboldo: Porträt von Kaiser Rudolf II

(Bild: Wikipedia)

Bei dem Prompt "Good morning in style of Arcimboldo" begreift das System sowohl die künstlerischen Prinzipien von Arcimboldo als auch die semantische Darstellung von "Good Morning" als Frühstück und verbindet die beiden Kontexte zu einem Bild.

DALL·E erstellt eine Frühstückskollage im Stil Acrimboldos

Das Ergebnis ist zwar keine manieristische Ölmalerei im Stil der Spätrenaissance, doch die Idee der semantischen Anordnung ist gut ins Bild gesetzt. Auch komplexere Aufgaben wie Wissenschaftler, die Äpfel mit Orangen im Stil von Norman Rockwell vergleichen, scheinen für DALL·E kein Problem zu sein.

Prompt: "Wissenschaftler vergleichen Äpfel mit Orangen, im Stil von Norman Rockwell" (4 Bilder)