KI-System DALL·E: Ein Alleskönner für Kreative
Seite 3: Retouchiert statt neu gemalt
DALL·E kann nicht nur Bilder generieren, sondern auch vorhandene Werke über Inpainting ergänzen. Dazu bietet das System ein Werkzeug, um bestimmte Elemente im Bild zu markieren und mit KI-Vorstellungskraft neu zu füllen.
Folgendes Beispiel entfernt die berühmte Mona Lisa aus dem Bild: Ihr Bildnis wurde markiert und mit dem Prompt "Middle age landscape with a road and an old house with windows and watermill, horses, oil painting, sfumato by Leonardo da Vinci" verändert.
Mit dem gleichen Verfahren lässt sich das Bild immer weiter verkleinern und durch KI fortsetzen, woraus eine Zoom-Animation entstehen kann.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmmung wird hier eine Vimeo-Video (Vimeo LLC) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Vimeo LLC) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
Unterschiedliche Variationen
Eine weitere Funktion heißt Variation. Dabei dient kein Text, sondern ein Bild als Grundlage, das User wahlweise von DALL·E 2 generieren lassen oder hochladen. Das System untersucht das Bild zunächst auf seine semantischen und visuellen Eigenschaften, erstellt daraufhin einen internen Prompt und danach die neuen Bilder.
Die Ergebnisse nutzen den Sfumato-Stil und zeigen eine Dame mit Weinglas, aber die Gesichter und andere Details unterscheiden sich voneinander und vom Original.
Ein weiteres Beispiel zeigt eine andere Variationsreihe, bei der das erste Bild das Original ist: ein Architektur-Ensemble, sichtbar unter einem Rundbogen mit blauem Himmel und Wolken im Hintergrund als HDR-Foto.
Das Original wird mittels CLIP ausgewertet und in ein für Anwenderinnen und Anwender unsichtbares Text-Encoding übertragen. Dabei entstehen neue Bilder, die thematisch und visuell das erste Bild nachahmen. Obwohl die Architekturelemente unterschiedlich sind, bleibt die Komposition ähnlich.
Da DALL·E 2 eine Weboberfläche zum Ansteuern bietet, lassen sich völlig neue Variationen der Umgebung mit einem Smartphone erstellen, wenn man das gerade aufgenommene Foto als Bild-Prompt verwendet.
Spätestens DALL·E 2, wenn nicht schon GPT-3 zeigt, dass Prompt-Design nicht bloß ein nebensächliches Einfügen von Texten und Bildern bedeutet. Es ist ein neues Berufsfeld, eine Wissenschaft für sich.
Berufsbild Prompt-Designer
Noch vor drei Jahren hätte die Berufsbeschreibung eines Prompt-Designers lediglich für Verwirrung gesorgt: Man generiert mit passenden Texten unterschiedliche Inhalte wie weitere Texte mit GPT-3, Bilder mit DALL·E 2, oder Musik mit dem audiogenerischen Modell JukeBox von OpenAI.
Inzwischen wird deutlich, dass die Berufsbezeichnung völlig andere Kenntnisse und Fähigkeiten als Python, Machine Learning oder Informatik erfordert. Prompt-Design setzt neben profunden Allgemeinkenntnissen ein gutes Verständnis der kreativen Psychologie des Systems und präzise Kenntnis der jeweiligen KI-Modelle voraus. Derselbe Prompt kann bei verschiedenen Modellen völlig unterschiedliche Ergebnisse erzeugen.
Der Aufmerksamkeitsmechanismus von DALL·E achtet penibel auf die kleinste morphologische Einheit der Texteingabe.
Die Kunst des Prompt-Designs
Gibt man ohne weitere Angaben in DALL·E "An Apple" ein, erhält man eine Reihe von Apfelfotos
Ergänzt man mit "im Stil von Magritte", spuckt DALL·E eine Sammlung von Bildern im Stil des belgischen Surrealisten aus.
Das System stößt aber an seine Grenzen, wenn es eine "Fahrrad fahrende Katze" darstellen soll.
Vermutlich tappt DALL·E im Dunkeln, da kein passendes Motiv im Trainingsdatensatz vorhanden war.
An der Stelle kommt das Allgemeinwissen der Prompt-Designer zur Geltung: In welchem Kontext kann eine Katze Fahrrad fahren? In einer anthropomorphischen Situation von Kinderbuchillustrationen. Daher nimmt man einen bekannten Illustrator wie Michael Sowa.
DALL·E erstellt darauf eine Reihe märchenhafter Abbildungen von Katzen, die Fahrrad fahren. Wenn die Darstellung der unmöglichen Situation fotorealistisch sein soll, ist das Ziel hiermit jedoch noch nicht erreicht. Dafür weist man explizit darauf hin, dass es sich um ein Foto handeln soll.