KI-System DALL·E: Ein Alleskönner für Kreative

Das KI-System DALL·E erstellt Bilder aus textuellen Beschreibungen. Die fotorealistischen Ergebnisse sind beeindruckend.​

In Pocket speichern vorlesen Druckansicht 27 Kommentare lesen
Lesezeit: 21 Min.
Von
  • Vladimir Alexeev
Inhaltsverzeichnis

Laokoon war der erste bekannte Securityspezialist: Er erkannte, dass das Innere des Trojanischen Pferdes rappelvoll mit griechischen Helden war. Doch die Götter schickten zwei Seeschlangen, die den antiken Sicherheitsexperten im Nu erledigten, und so war es um Troja geschehen.

Die berühmte Laokoon-Gruppe stellt den armen Whistleblower mit seinen Söhnen im Würgegriff der Schlangen dar. Wie sähe es aus, wenn ein griechischer Bildhauer die Marmorstatue eines IT-Fachmanns nach dem Vorbild der Laokoon-Gruppe erstellt hätte? Das KI-System DALL·E 2 zeigt mögliche Antworten.

Administrator nach Art der Laokoon-Gruppe (3 Bilder)

Im Januar 2021 erregte OpenAI auch jenseits der Machine Learning Communities großes Interesse: Das Unternehmen stellte DALL·E und CLIP der Öffentlichkeit vor. Ersteres war ein Meilenstein in der Welt der multimodalen Ansätze, denn das Framework aus mehreren neuronalen Netzen erzeugte fotorealistische Bilder nach einfachen Texteingaben. Daher wurde es von OpenAI ironisch DALL·E benannt als Kofferwort aus den Namen des berühmten Surrealisten und des sympathischen Roboters aus dem Pixar-Film WALL-E.

Um die Verwirrung um die Nummern hinter dem Namen etwas aufzuklären: DALL·E (im Nachhinein auch als DALL·E 1 bekannt) war nie öffentlich zugänglich. Die komplett überarbeitete Version mit neuer Architektur hat OpenAI im April 2022 als DALL·E 2 veröffentlicht. Mittlerweile vergisst das Unternehmen gerne die 2 und spricht beispielsweise zum Start der Beta lediglich von DALL·E.

DALL·E 1 war nicht das erste ML-Modell, das Texte semantisch auswertet und ins Visuelle überträgt. Es ist nicht das erste Text-zu-Bild-KI-Modell. Es gab vorher Implementationen, die beispielsweise auf Basis von Generative Adversarial Networks (GAN) arbeiteten, wozu eine Gruppe rund um Ian Goodfellow 2014 einen Artikel veröffentlicht hat. GAN bestehen aus zwei künstlichen neuronalen Netzen: Generator und Discriminator, die an Unmengen von Bildmaterial trainiert wurden. Der Generator versucht Bilder zu erstellen, die visuell möglichst nahe am Trainingsdatensatz sind. Der Discriminator hat die Aufgabe, die Ergebnisse als Fakes zu entlarven. Nach dem iterativen Gegenspiel entstehen Bilder, die der Discriminator nicht mehr als generiert erkennt.

Zwei Jahre später veröffentlichten Forschende der Michigan University und des Max-Planck-Instituts für Informatik (Saarbrücken) 2016 das Paper "Generative Adversarial Text to Image Synthesis". Die Idee dahinter ist, die visuellen Konzepte aus dem Text in Pixel zu übertragen. Die Zuordnung Text zu Bild war bereits im Trainingsdatensatz vorhanden, deren Ersteller manuell alle visuellen Daten mit Labels versehen hatten. Die Qualität des Verfahrens war noch weit von einer fotorealistischen Darstellung entfernt. Die im Paper beschriebene Vorgehensweise wurde mehrfach implementiert, unter anderem in der Webanwendung Text to Image API von Scott Ellison Reed. Das System erstellte interessante Bilder für einfache Eingaben. Die Ergebnisse für komplexe Textvorlagen waren jedoch unzureichend. Das lag wohl auch daran, dass der Datensatz für das Training vor allem Abbildungen von Tieren und Gegenständen enthielt.

Die Webanwendung Text to Image (3 Bilder)

Text to Image: Der Prompt "bird" erzeugte etwas Vogel-ähnliches.

Fünf Jahre später erschien mit DALL·E eine völlig neue Anwendung. Statt GANs setzte OpenAI hierfür seinen GPT-3-Transformer ein. Transformer-Modelle, die neben OpenAI unter anderem Google entwickelt hat, arbeiten mit einem Aufmerksamkeitsmechanismus (self-attention): Sie achten auf die eingegebenen Daten (Prompts) und auf eigene Ergebnisse. Dadurch entstehen kohärente Inhalte. Das gigantische NLP-Model GPT-3 (Generative Pre-trained Transformer) von OpenAI schreibt die in sich logischen Texte mit inhaltsrelevanten Verknüpfungen nicht ohne literarischen Touch.

Dabei kann der GPT-3-Transformer unterschiedlichste Inhalte begreifen, miteinander verknüpfen und eine in sich geschlossene Schlussfolgerung erstellen. An folgendem Beispiel wird deutlich, dass das System erstens den Schreibstil von Goethe kennt, zweitens weiß, was eine TV-Werbung ist, und drittens in der Lage ist, diese verschiedenen Konzepte organisch miteinander zu verbinden:

Der Prompt des Autors ist fett markiert, den Rest hat GPT-3 erstellt.

Die erste Version von DALL·E nutzte die Version von GPT-3 mit 12 Milliarden Parametern. Sie lernte im Training, Bilder aus Prompts zu generieren. Die Basis war ein Datensatz von Bild-Text-Paaren. Für die Zuordnung zwischen Bild und Text, und für das Ranking der besten visuellen Ergebnisse kam mit CLIP ein weiteres künstliches neuronales Netz von OpenAI zum Einsatz. Anders als DALL·E ist es als Open-Source-Software verfügbar und fand viele Anhänger unter KI-Künstlern.

Die Fähigkeiten von DALL·E haben bereits 2021 überzeugt: Das Modell verstand die Texteingaben und generierte passende Bilder.

Das Beispiel "Ein Sessel in Form einer Avocado" erreichte große Bekanntheit in Blogs und Medien.

(Bild: OpenAI)

DALL·E 1 war der erste Schritt des Forschungsprojektes von OpenAI und erreichte nie das Licht der Öffentlichkeit. Nur eine kleine Gruppe von Forschern und Community Ambassadors, zu denen der Autor dieses Artikels gehört, hatten Zugriff zu dem System. Die Kenntnisse und Fähigkeiten von DALL·E überraschten von Anfang an.

DALL·E erstellt ein passendes Bild zu dem Prompt "Mona Lisa is drinking wine with da Vinci".

Das Ergebnis der Mona Lisa, die mit da Vinci Wein trinkt, zeigte eine narrative Kraft des Systems: Das elegant gehobene Weinglas mit der darin gespiegelten Gioconda lässt sich durchaus als Referenz auf Selbstbildnis-Theorien von da Vinci verstehen.

Der Autor hat noch weitere Bilder mit DALL·E 1 erstellt. (4 Bilder)

Prompt: "Statue of Keanu Reeves in style of Michelangelo"

DALL·E 1 hatte einige Begrenzungen:

  • die Auflösung war niedrig: 256x256 px,
  • es war nur auf englischsprachige Kontexte trainiert, und jede unklare Eingabe produzierte einfach Naturbilder und
  • die Bildqualität war nicht die beste.

Im Winter 2022 hat OpenAI die neuere Version von DALL·E demonstriert, die deutlich leistungsstärker war.

Im April 2022 erschien DALL·E 2 offiziell und war zunächst nur über eine Warteliste zugänglich. Eine Woche nach der Veröffentlichung waren auf der Liste 100.000 Anfragen und einige Monate später über eine Million.

DALL·E 2 war hinsichtlich der kreativen und visuellen Qualität um Längen besser als der Vorgänger. Mit der soliden Auflösung 1024x1024 und mehrsprachiger Textverarbeitung zog das neue Modell alle Register des Visuellen: von fotorealistischen Portraits bis zur Simulation von 3D Renderings.

Das Prinzip der Bildgeneration bei DALL·E 2 läuft vereinfacht folgendermaßen ab:

  1. Der Prompt läuft über den Text Encoder, der ihn in den Repräsentationsraum projiziert. Dort ordnet CLIP die textuelle und die visuelle Ebene paarweise zu. Das neuronale Netz ist darauf trainiert festzustellen, inwieweit eine Textbeschreibung zu einem Bild passt. Der Schritt steht für das Semantisieren der Textebene in Bezug auf das Visuelle.
  2. Es entsteht ein sogenanntes Prior: kein fertiges Bild, sondern lediglich eine Bildrepräsentation. Dabei kommt mit GLIDE ein Diffusionsmodel von OpenAI zum Einsatz. Diese Art der Modelle gab es bereits zuvor: 2020 hat eine Gruppe der UC Berkeley die ersten Versuche unternommen, Fotorealismus zu schaffen. Dabei trainierte sie ein künstliches neuronales Netz mit Fotos, die sie so lange mit immer mehr Rauschen belegten, bis nichts mehr erkennbar war. Danach kehrten sie den Vorgang um, sodass das System aus dem Rauschen fotorealistische Bilder nach Vorgaben schuf.
  3. Der Prior mit der Text-Bild-Semantik generiert über Diffusionsumkehrung eine Reihe von Bildern, die das System wiederum mit CLIP semantisch sortiert und die die aus seiner Sicht besten als Ergebnis anzeigt.

Der gesamte Prozess dauert etwa 20 Sekunden für sechs bis zehn Bilder. Bei DALL·E 1 hatte das Generieren von 25 Bildern etwa 60 Sekunden gedauert.

Die kreativen Möglichkeiten von DALL·E 2 sind fast grenzenlos und die weltweite wachsende DALL·E Community tauscht im internen Discord-Channel immer neue Entdeckungen aus. Vermutlich kratzen die heutigen Umsetzungen dabei lediglich an der Oberfläche des Modells.

Das User Interface des Systems ist minimalistisch: Es gibt lediglich eine Kommandozeile zur Texteingabe. Alternativ lässt sich ein Bild zum Bearbeiten hochladen.

In der Oberfläche kann man sich auf Prompt Design konzentrieren.

Der oben genutzte Prompt "Mona Lisa is drinking wine with da Vinci" erzeugt zwar immer noch eine Abbildung der Gioconda ohne Maestro, dafür jedoch in überraschend guter Qualität.

DALL·E 2 erstellt die Mona Lisa mit einem Glas Wein.

Das Weinglas ist im Vordergrund mit korrektem Flüssigkeitspegel zu sehen – vermutlich wurden die Bilder mit Weingläsern im Datensatz auf konventionelle Weise horizontal aufgenommen. Mona Lisa ist im unscharfen Bokeh-Hintergrund mit ihren (und da Vincis) Wahrzeichen wie den als Sfumato bezeichneten, rauchig-hauchdünnen Farbübergängen.

DALL·E kann auch fotorealistische Bilddarstellung. Das Ergänzen des Prompts mit Objektivspezifikationen verbessert die Qualität der Resultate. Vermutlich gehören die Metadaten der Fotoaufnahmen zu den Inhalten, an denen GLIDE und CLIP trainiert wurden.

Das Bild entstand mit dem Prompt "A portrait of a dog in a library, Sigma 85mm f/1.4"

DALL·E ist in der Lage, künstlerische Richtungen, Bewegungen und Stile zu simulieren. Interessant ist jedoch nicht der typische Style Transfer. In vielen Fällen ist es eine Art "künstlerische Essenz", die der DALL·E Transformer aufgreift. Bei der Angabe "im Stil von Carl Spitzweg" beispielweise entstehen nicht unbedingt die dem Meister des Komischen eigenen Ölmalereien. Stattdessen mischt das System dem Werk die Ironie des Künstlers bei.

Beispiele für den Prompt "AI artist in Disbelief, in Style of Spitzweg" (5 Bilder)

Eine andere Kohärenz des Transformers zeigt sich beim Versuch, die kreativen Prinzipien eines Künstlers auf einen gänzlich fremden Inhalt zu übertragen. Die kongeniale Verbindung von Inhalten ist vergleichbar mit den textuellen Kombinationen im oben aufgeführten fiktiven Text von Goethe zur TV-Werbung.

Der italienische Maler Giuseppe Arcimboldo war für seine collagenartige Portraits bekannt, in denen die Gesichter aus angeordneten Gegenständen bestanden.

Vertumnus von Arcimboldo: Porträt von Kaiser Rudolf II

(Bild: Wikipedia)

Bei dem Prompt "Good morning in style of Arcimboldo" begreift das System sowohl die künstlerischen Prinzipien von Arcimboldo als auch die semantische Darstellung von "Good Morning" als Frühstück und verbindet die beiden Kontexte zu einem Bild.

DALL·E erstellt eine Frühstückskollage im Stil Acrimboldos

Das Ergebnis ist zwar keine manieristische Ölmalerei im Stil der Spätrenaissance, doch die Idee der semantischen Anordnung ist gut ins Bild gesetzt. Auch komplexere Aufgaben wie Wissenschaftler, die Äpfel mit Orangen im Stil von Norman Rockwell vergleichen, scheinen für DALL·E kein Problem zu sein.

Prompt: "Wissenschaftler vergleichen Äpfel mit Orangen, im Stil von Norman Rockwell" (4 Bilder)

DALL·E kann nicht nur Bilder generieren, sondern auch vorhandene Werke über Inpainting ergänzen. Dazu bietet das System ein Werkzeug, um bestimmte Elemente im Bild zu markieren und mit KI-Vorstellungskraft neu zu füllen.

Folgendes Beispiel entfernt die berühmte Mona Lisa aus dem Bild: Ihr Bildnis wurde markiert und mit dem Prompt "Middle age landscape with a road and an old house with windows and watermill, horses, oil painting, sfumato by Leonardo da Vinci" verändert.

Das Bildnis ohne die Mona Lisa zeigt einen fiktiven Hintergrund im passenden Stil.

Mit dem gleichen Verfahren lässt sich das Bild immer weiter verkleinern und durch KI fortsetzen, woraus eine Zoom-Animation entstehen kann.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier eine Vimeo-Video (Vimeo LLC) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Vimeo LLC) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Eine weitere Funktion heißt Variation. Dabei dient kein Text, sondern ein Bild als Grundlage, das User wahlweise von DALL·E 2 generieren lassen oder hochladen. Das System untersucht das Bild zunächst auf seine semantischen und visuellen Eigenschaften, erstellt daraufhin einen internen Prompt und danach die neuen Bilder.

DALL·E erstellt Variationen der generierten Mona Lisa mit dem Weinglas.

Die Ergebnisse nutzen den Sfumato-Stil und zeigen eine Dame mit Weinglas, aber die Gesichter und andere Details unterscheiden sich voneinander und vom Original.

Ein weiteres Beispiel zeigt eine andere Variationsreihe, bei der das erste Bild das Original ist: ein Architektur-Ensemble, sichtbar unter einem Rundbogen mit blauem Himmel und Wolken im Hintergrund als HDR-Foto.

Das Original wird mittels CLIP ausgewertet und in ein für Anwenderinnen und Anwender unsichtbares Text-Encoding übertragen. Dabei entstehen neue Bilder, die thematisch und visuell das erste Bild nachahmen. Obwohl die Architekturelemente unterschiedlich sind, bleibt die Komposition ähnlich.

Das System erstellt Variationen eines Fotos.

Da DALL·E 2 eine Weboberfläche zum Ansteuern bietet, lassen sich völlig neue Variationen der Umgebung mit einem Smartphone erstellen, wenn man das gerade aufgenommene Foto als Bild-Prompt verwendet.

Spätestens DALL·E 2, wenn nicht schon GPT-3 zeigt, dass Prompt-Design nicht bloß ein nebensächliches Einfügen von Texten und Bildern bedeutet. Es ist ein neues Berufsfeld, eine Wissenschaft für sich.

Noch vor drei Jahren hätte die Berufsbeschreibung eines Prompt-Designers lediglich für Verwirrung gesorgt: Man generiert mit passenden Texten unterschiedliche Inhalte wie weitere Texte mit GPT-3, Bilder mit DALL·E 2, oder Musik mit dem audiogenerischen Modell JukeBox von OpenAI.

Inzwischen wird deutlich, dass die Berufsbezeichnung völlig andere Kenntnisse und Fähigkeiten als Python, Machine Learning oder Informatik erfordert. Prompt-Design setzt neben profunden Allgemeinkenntnissen ein gutes Verständnis der kreativen Psychologie des Systems und präzise Kenntnis der jeweiligen KI-Modelle voraus. Derselbe Prompt kann bei verschiedenen Modellen völlig unterschiedliche Ergebnisse erzeugen.

Der Aufmerksamkeitsmechanismus von DALL·E achtet penibel auf die kleinste morphologische Einheit der Texteingabe.

Gibt man ohne weitere Angaben in DALL·E "An Apple" ein, erhält man eine Reihe von Apfelfotos

Die Reaktion auf "An Apple" ist recht eindeutig.

Ergänzt man mit "im Stil von Magritte", spuckt DALL·E eine Sammlung von Bildern im Stil des belgischen Surrealisten aus.

Statt Fotos erstellt DALL·E Gemälde im Stil von Magritte.

Das System stößt aber an seine Grenzen, wenn es eine "Fahrrad fahrende Katze" darstellen soll.

"A Cat Riding a Bicycle" zeigt zwar Katzen und Fahrräder, aber keine Katzen, die Fahrrad fahren.

Vermutlich tappt DALL·E im Dunkeln, da kein passendes Motiv im Trainingsdatensatz vorhanden war.

An der Stelle kommt das Allgemeinwissen der Prompt-Designer zur Geltung: In welchem Kontext kann eine Katze Fahrrad fahren? In einer anthropomorphischen Situation von Kinderbuchillustrationen. Daher nimmt man einen bekannten Illustrator wie Michael Sowa.

Mit dem Prompt "Eine Fahrrad fahrende Katze, als Illustration von Michael Sowa" sitzt die Katze im Sattel, ist aber gezeichnet.

DALL·E erstellt darauf eine Reihe märchenhafter Abbildungen von Katzen, die Fahrrad fahren. Wenn die Darstellung der unmöglichen Situation fotorealistisch sein soll, ist das Ziel hiermit jedoch noch nicht erreicht. Dafür weist man explizit darauf hin, dass es sich um ein Foto handeln soll.

"Eine Fahrrad fahrende Katze, als Illustration von Michael Sowa, aber als ein Photo" erzeugt das gewünschte Ergebnis.

Bei KI-Anwendungen, vor allem bei kreativen und generativen, die einen Einfluss auf die Gesellschaft haben, ist das Thema Ethik immens wichtig. Bereits die Trainingsdatensätze bestimmen, was das darauf beruhende KI-Modell später kennt und erkennt. Ein prominentes Beispiel dafür ist Google Deep Dream.

Googles Deep Dream kennt vermutlich zu viele Hunde.

(Bild: Wikipedia)

Bei Deep Dream erkannte das neuronale Netz in einem Bild Bildmuster und verdeutlichte die gewonnene Erkenntnis, indem es das Bild thematisch modifizierte. Seltsamerweise sah das Modell wie beim Phänomen der Pareidolie überall Hunde. Die Erklärung war einfach: Für das Training diente ein Datensatz, in dem Abbildungen von Hunden dominierten.

Forscher von OpenAI stellten zudem fest, dass Datensammlungen zum Training von KI oft voreingenommen und stereotyp sind. Um Diversität zu gewährleisten und Stereotype zu vermeiden, haben sie ein spezielles, gefiltertes Diffusion-Modell von GLIDE trainiert. Außerdem unternahmen sie zusätzliche Maßnahmen, um den Missbrauch von DALL·E zu vermeiden.

In einem weiteren Report präsentierte OpenAI die Zwischenergebnisse seiner Arbeit im Bereich der Diversität. Die Resultate zeigen die Veränderung deutlich.

Die Darstellung "a judge" repräsentiert keine älteren weißen Männer mehr, sondern Richterinnen und Richter unterschiedlicher Ethnien.

"a judge" ist nicht immer ein älterer weißer, männlicher Richter.

Auch wenn die Eingabe sich wie bei "A portrait of a woman" auf ein Geschlecht festlegt, zeigt die KI die vielseitige, multiethnische Bevölkerung, statt sich auf eine Ethnie zu konzentrieren.

Ohne zusätzliche Spezifikation zeigt "A portrait of a woman" unterschiedliche Frauentypen.

Interessanterweise hängt die Diversität der Ergebnisse von dem Charakter der Prompts ab. Gibt man beispielweise den Namen des amerikanischen Künstlers Norman Rockwell ein, erscheinen fast nur europäische Gesichter. Dagegen erstellt DALL·E bei Utagawa Hiroshige mehr Japaner und beim südafrikanischen Künstler Nelson Makamo vor allem Personen des südafrikanischen Typus. Dabei greift DALL·E auf die Kenntnis des Oeuvres des jeweiligen Künstlers zu.

Auch wenn DALL·E bereits gute Ergebnisse hinsichtlich der Diversität erzielt, arbeitet OpenAI weiterhin an Verbesserungen und versucht Bias weitgehend zu vermeiden. Zudem existieren Nutzungsbeschränkungen, um Missbrauch von DALL·E zu verhindern. Unter anderem blockt das System Begriffe, die Gewalt, Krieg oder Sexualität thematisieren. Außerdem erzeugt DALL·E keine realistischen Abbilder lebender Prominenter, um Deepfakes zu verhindern.

Ende Juli 2022 startete die offizielle Betaphase von DALL·E 2. Im Zuge dessen hat OpenAI angekündigt, eine Million Interessenten von der Warteliste in das Programm aufzunehmen. Bei der Auswahl orientiert sich das Team nicht daran, wer am längsten angemeldet ist, sondern an der Begründung des Antrags. Es nimmt zunächst Personen auf, die spezielle Zielsetzungen haben oder aus dem Forschungs-, Kunst- oder Bildungsbereich kommen.

Jedes erzeugte Bild kostet Rechenleistung auf den GPUs. Um mehr Betatester aufzunehmen, hat OpenAI die Anzahl der Bilder pro Vorgang von zehn auf vier reduziert. Vor der Betaphase konnten alle Tester täglich 50 Generations kostenlos erstellen.

Nun erhält jede Nutzerin beziehungsweise jeder Nutzer monatlich 15 freie Credits. Jeder Vorgang, sei es Bildgenerierung, Inpainting oder Variation, kostet einen Credit und erzeugt vier Bilder. Wer weitere Bilder erstellen möchte, kann für 15 US-Dollar 115 Credits zukaufen.

Im Zuge des kostenpflichtigen Modells hat OpenAI die Lizenzbedingungen angepasst, die zuvor recht strikt waren und nur die private, nicht kommerzielle Anwendung erlaubt hatten. Alle Bildrechte gehörten OpenAI. Das Teilen der Bilder auf Social Media war jedoch erlaubt. Nach Absprache durften die Tester ihre Werke zudem auf Ausstellungen zeigen. Mit der Einführung des Bezahlmodells sind die Beschränkungen aufgehoben, und die mit DALL·E erstellten Bilder dürfen für kommerzielle Zwecke genutzt werden. Für Künstlerinnen und Künstler, die finanzielle Unterstützung benötigen, bietet OpenAI ein Financial-Support-Programm an.

Nach der Veröffentlichung von CLIP und der Ankündigung von DALL·E war die Öffentlichkeit – insbesondere Kreative im Bereich der KI-Kunst – davon besessen, Zugang zu DALL·E zu erhalten. Da das anfangs nicht möglich war, kamen interessante Alternativen zustande.

Zunächst stürzten sich viele auf das als Open-Source-Projekt veröffentlichte CLIP-Netz mit dem anonymen Künstler und Forscher Advadnoun als Vorreiter. Im Zuge dessen entstanden dutzende CLIP-basierte Text2Image-Implementierungen, die ein Beitrag auf Reddit auflistet. Die Projekte waren zwar weit vom Fotorealismus des heutigen DALL·E entfernt, zeigten jedoch durchaus spektakuläre Ergebnisse.

Das Bild wurde mit einem Colab Notebook erstellt, das CLIP zusammen mit VQGAN nutzt. Der Prompt war: "Italian Streets and Art".

An der chinesischen Tsinghua Universität startete derweil der Versuch, DALL·E mit dem Projekt "CogView" zu rekonstruieren. Die russische KI-Abteilung der Bank Sberbank probierte sich ebenfalls mit ruDALLe als einer Art Klon an der Architektur von DALL·E, das interessante Ergebnisse erzielte.

Eine virale Popularität und großes Medieninteresse erhielt das Projekt DALL·E mini von Boris Dayma, das viele wegen des Namens für eine abgespeckte Version des Originals halten. Das System hat jedoch mit OpenAI nichts zu tun und läuft mit einer anderen Architektur, die an die erste Version von DALL·E erinnert. Da es bei dem Projekt anders als beim Original keine Filter und Limitierungen gibt, nutzen einige das System mit fragwürdigen Prompts. Auch wenn der Ersteller das Projekt nach Beschwerde von OpenAI inzwischen in crAIyon umbenannt hat, geistert es weiterhin als DALL·E mini durch die Medien.

Einige haben Sorge, DALL·E würde das Ende der Kreativität beziehungsweise der kreativen Berufe bedeuten. Dem kann man einige Argumente entgegenhalten:

  • DALL·E ist kein Ersatz, sondern eine Ergänzung für die Kreativität. Mit dem System lassen sich neue Ideen und Perspektiven erzeugen. Außerdem wird es langfristig ein hilfreiches Werkzeug in der Kommunikation zwischen Designern und ihren Kunden für das Finden von Motiven sein.
  • Das System ermöglicht es, schnell und vielseitig an visuelle Motive zu kommen, beispielsweise für die bildliche Untermalung von Präsentationen.
  • Wer viele Ideen, aber wenig Erfahrung in der Gestaltung hat, kann mit DALL·E eigene Konzepte visualisieren und umsetzen.
  • Neue Berufe wie Prompt Designer werden entstehen.
  • Wer glaubt, maschinelle Nachahmung könne die menschliche Kreativität zerstören, schenkt der Kreativität zu wenig Vertrauen.

Ähnlich wie GPT-3 das Generieren von Text mit KI revolutioniert hat, zeigt DALL·E ganz neue Möglichkeiten beim Erstellen von Bildern anhand von Texteingaben. Im Endeffekt liegt es an uns Menschen, die besten Ergebnisse auszuwählen.

Der Forscher und Künstler Ross Goodwin schrieb in seinem Essay "Adventures in Narrated Reality" über die literarische Macht der Maschine: "Wenn wir Computern das Schreiben beibringen, ersetzen die Computer uns genauso wenig wie Klaviere Klavierspieler ersetzen – sie werden gewissermaßen zu unseren Stiften, und wir werden zu mehr als bloß Schriftstellern. Wir werden zu Schreibern von Schreibern."

Mit DALL·E lassen sich die Werkzeuge auf die bildende Kunst und das Design erweitern.

Vladimir Alexeev
(aka Merzmensch) arbeitet als Digital Experience Specialist bei DB Schenker. Er ist ein Schriftsteller, Künstler und Forscher der kreativen Zusammenarbeit von Mensch und Maschine. Sein Hauptfokus richtet sich dabei auf die Interpretationen der menschlichen Kultur durch die Künstliche Intelligenz.

Kreationen des Autors finden sich in der virtuellen DALL·E-Galerie bei Spatial. Außerdem schreibt er regelmäßig Beiträge zu dem KI-System in seinem Online-Magazin "Merzazine".

(rme)