KI-Bildgenerator DALL-E 2: OpenAIs erste Retrospektive auf 3 Millionen Bilder

Einen Monat nach Veröffentlichung des KI-Systems, das Bilder anhand von Beschreibungen erstellt, zieht OpenAI Bilanz und will weiteren Usern Zugriff gewähren.

3

Textprompt: "Teddy bears working on new AI research as kids' crayon art", erstellt mit DALL-E 2

(Bild: OpenAI)

19.05.2022, 13:43 Uhr

Lesezeit: 4 Min.

Developer

Von

Rainald Menge-Sonnentag

KI-Bildgenerator DALL-E 2: OpenAIs erste Retrospektive auf 3 Millionen Bilder

OpenAI veröffentlicht gut einen Monat nach der Veröffentlichung von DALL-E 2 erste Zahlen zu den veröffentlichten Bildern. Das KI-System erstellt Bilder anhand von Beschreibungen und steht derzeit einer begrenzten Gruppe von Personen zur Verfügung, die insgesamt 3 Millionen Bilder erstellt haben. Im Fokus der Untersuchung stehen die Vorsichtsmaßnahmen, die verhindern sollen, dass das System Bilder mit anstößigen Inhalten generiert.

Positive Bilanz zu den Vorsichtsmaßnahmen

Neben der Weiterentwicklung der Machine-Learning-Methoden zum Erstellen und Verändern der Bilder hat OpenAI für DALL-E 2 zusätzliche Vorkehrungen getroffen. Generative Modelle bergen grundsätzlich Risiken: Sie können verbreitete Vorurteile übernehmen, und User können versuchen, sie gezielt zu manipulieren oder für Inhalte einzusetzen, die beispielsweise gewaltverherrlichend sind.

Videos by heise

Für DALL-E 2 hat OpenAI den Trainingssatz gefiltert, damit er keine Vorlagen für Gewalt, hassgetriebene oder sexuelle Inhalte bietet. Außerdem verbietet die Content Policy des Unternehmens das Generieren entsprechender Inhalte. Auf technischer Seite soll ein Filter für Texteingaben und hochgeladene Bilder einen Missbrauch des Systems abwehren. Schließlich setzt OpenAI Techniken ein, um das Erstellen fotorealistischer Inhalte anhand echter Personen zu verhindern.

OpenAI hat nun einige Zahlen veröffentlicht, die zeigen sollen, dass die Vorsichtsmaßnahmen weitgehend gegriffen haben. Die Anzahl der Personen, die an der ersten geschlossenen Testphase teilgenommen haben, gibt das Unternehmen allerdings nicht preis. Insgesamt haben die Early Users 3 Millionen Bilder erstellt.

Wenige Verletzungen, mehr Accounts geplant

Lediglich 0,05 Prozent der heruntergeladenen beziehungsweise öffentlich geteilten Bilder hat das System als potenzielle Verletzung der Vorgaben für die Inhalte gekennzeichnet. Menschliche Reviewer haben für 30 Prozent die Verletzungen bestätigt, worauf OpenAI die zugehörigen Accounts gesperrt hat.

Die Testnutzerinnen und -nutzer hatten den expliziten Hinweis erhalten, keine fotorealistisch generierten Bilder mit Gesichtern zu erstellen. Außerdem sollten sie die von DALL-E generierten Bilder kennzeichnen, die sie als problematisch ansehen.

DALL-E 2 hat bisher wohl zum Großteil unbedenklich Bilder erstellt wie dieses Resultat der Beschreibung "An astronaut riding a horse in the style of Andy Warhol".

(Bild: OpenAI)

In den nächsten Monaten will OpenAI das Programm ausbauen und weitere User zulassen, um die Sicherheitsmaßnahmen weiterzuentwickeln. Zunächst sollen bis zu 1000 neue Leute pro Woche Zugang zu DALL-E erhalten. Wer auf einen Zugang hofft, kann sich auf der Warteliste eintragen.

Künstlerische Weiterentwicklung

Die erste Version von DALL-E, die OpenAI im Januar 2021 veröffentlicht hatte, setzt auf das ebenfalls von OpenAI stammende Sprachmodell GPT-3. Während Letzteres aus einer großen Sammlung von Texten sein Basiswissen bezieht, hat OpenAI DALL-E und dessen Nachfolger mit zahlreichen Bildern und zugehörigen Beschreibungen trainiert. Das System nutzt die Grundlage, um beispielsweise einen Astronauten auf einem Pferd im Andy-Warhol-Stil zu generieren. Der Name DALL-E ist ein Kofferwort aus dem Nachnamen des spanischen Künstlers Salvador Dali und dem Titel des Pixar-Films "WALL-E".

DALL-E 2 kombiniert zwei Techniken, die OpenAI seit der Veröffentlichung der ersten Variante entwickelt hat: CLIP (Contrastive Language-Image Pre-training), ein künstliches neuronales Netz, das visuelle Konzepte in Kategorien umsetzt, und GLIDE (Guided Language to Image Diffusion for Generation and Editing), ein textgeführtes Diffusionsmodell, das laut einem Paper DALL-E vor allem in den Bereichen Fotorealismus und passende Beschreibung übertroffen hat.

DALL-E 2 erstellt Variationen von Gustav Klimts "Der Kuss"

(Bild: OpenAI)

Im Gegensatz zum Vorgänger kann DALL-E 2 Bilder nachträglich verändern und Inhalte kontextbezogen hinzufügen. Darüber hinaus kann das System vorhandene Bilder umgestalten. Die Projektseite zeigt Variationen bekannter Kunstwerke wie "Das Mädchen mit dem Perlenohrring" von Jan Vermeer van Delft oder "Der Kuss" von Gustav Klimt.

(rme)