KI-System DALL·E: Ein Alleskönner für Kreative

Seite 3: Retouchiert statt neu gemalt

DALL·E kann nicht nur Bilder generieren, sondern auch vorhandene Werke über Inpainting ergänzen. Dazu bietet das System ein Werkzeug, um bestimmte Elemente im Bild zu markieren und mit KI-Vorstellungskraft neu zu füllen.

Folgendes Beispiel entfernt die berühmte Mona Lisa aus dem Bild: Ihr Bildnis wurde markiert und mit dem Prompt "Middle age landscape with a road and an old house with windows and watermill, horses, oil painting, sfumato by Leonardo da Vinci" verändert.

Das Bildnis ohne die Mona Lisa zeigt einen fiktiven Hintergrund im passenden Stil.

Mit dem gleichen Verfahren lässt sich das Bild immer weiter verkleinern und durch KI fortsetzen, woraus eine Zoom-Animation entstehen kann.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier eine Vimeo-Video (Vimeo LLC) geladen.

Vimeo-Video immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Vimeo LLC) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Mit DALL·E erstellte Zoom-Animation

Unterschiedliche Variationen

Eine weitere Funktion heißt Variation. Dabei dient kein Text, sondern ein Bild als Grundlage, das User wahlweise von DALL·E 2 generieren lassen oder hochladen. Das System untersucht das Bild zunächst auf seine semantischen und visuellen Eigenschaften, erstellt daraufhin einen internen Prompt und danach die neuen Bilder.

DALL·E erstellt Variationen der generierten Mona Lisa mit dem Weinglas.

Die Ergebnisse nutzen den Sfumato-Stil und zeigen eine Dame mit Weinglas, aber die Gesichter und andere Details unterscheiden sich voneinander und vom Original.

Ein weiteres Beispiel zeigt eine andere Variationsreihe, bei der das erste Bild das Original ist: ein Architektur-Ensemble, sichtbar unter einem Rundbogen mit blauem Himmel und Wolken im Hintergrund als HDR-Foto.

Das Original wird mittels CLIP ausgewertet und in ein für Anwenderinnen und Anwender unsichtbares Text-Encoding übertragen. Dabei entstehen neue Bilder, die thematisch und visuell das erste Bild nachahmen. Obwohl die Architekturelemente unterschiedlich sind, bleibt die Komposition ähnlich.

Das System erstellt Variationen eines Fotos.

Da DALL·E 2 eine Weboberfläche zum Ansteuern bietet, lassen sich völlig neue Variationen der Umgebung mit einem Smartphone erstellen, wenn man das gerade aufgenommene Foto als Bild-Prompt verwendet.

Spätestens DALL·E 2, wenn nicht schon GPT-3 zeigt, dass Prompt-Design nicht bloß ein nebensächliches Einfügen von Texten und Bildern bedeutet. Es ist ein neues Berufsfeld, eine Wissenschaft für sich.

Berufsbild Prompt-Designer

Noch vor drei Jahren hätte die Berufsbeschreibung eines Prompt-Designers lediglich für Verwirrung gesorgt: Man generiert mit passenden Texten unterschiedliche Inhalte wie weitere Texte mit GPT-3, Bilder mit DALL·E 2, oder Musik mit dem audiogenerischen Modell JukeBox von OpenAI.

Inzwischen wird deutlich, dass die Berufsbezeichnung völlig andere Kenntnisse und Fähigkeiten als Python, Machine Learning oder Informatik erfordert. Prompt-Design setzt neben profunden Allgemeinkenntnissen ein gutes Verständnis der kreativen Psychologie des Systems und präzise Kenntnis der jeweiligen KI-Modelle voraus. Derselbe Prompt kann bei verschiedenen Modellen völlig unterschiedliche Ergebnisse erzeugen.

Der Aufmerksamkeitsmechanismus von DALL·E achtet penibel auf die kleinste morphologische Einheit der Texteingabe.

Die Kunst des Prompt-Designs

Gibt man ohne weitere Angaben in DALL·E "An Apple" ein, erhält man eine Reihe von Apfelfotos

Die Reaktion auf "An Apple" ist recht eindeutig.

Ergänzt man mit "im Stil von Magritte", spuckt DALL·E eine Sammlung von Bildern im Stil des belgischen Surrealisten aus.

Statt Fotos erstellt DALL·E Gemälde im Stil von Magritte.

Das System stößt aber an seine Grenzen, wenn es eine "Fahrrad fahrende Katze" darstellen soll.

"A Cat Riding a Bicycle" zeigt zwar Katzen und Fahrräder, aber keine Katzen, die Fahrrad fahren.

Vermutlich tappt DALL·E im Dunkeln, da kein passendes Motiv im Trainingsdatensatz vorhanden war.

An der Stelle kommt das Allgemeinwissen der Prompt-Designer zur Geltung: In welchem Kontext kann eine Katze Fahrrad fahren? In einer anthropomorphischen Situation von Kinderbuchillustrationen. Daher nimmt man einen bekannten Illustrator wie Michael Sowa.

Mit dem Prompt "Eine Fahrrad fahrende Katze, als Illustration von Michael Sowa" sitzt die Katze im Sattel, ist aber gezeichnet.

DALL·E erstellt darauf eine Reihe märchenhafter Abbildungen von Katzen, die Fahrrad fahren. Wenn die Darstellung der unmöglichen Situation fotorealistisch sein soll, ist das Ziel hiermit jedoch noch nicht erreicht. Dafür weist man explizit darauf hin, dass es sich um ein Foto handeln soll.