Machine Learning: KI GPT-3 erstellt unter dem Künstlernamen DALL-E Bilder

Eine spezielle Version des von OpenAI entwickelten Sprachmodells GPT-3 erstellt Bilder anhand von Beschreibungen.

In Pocket speichern vorlesen Druckansicht 13 Kommentare lesen

(Bild: agsandrew / Shutterstock.com)

Lesezeit: 4 Min.
Von
  • Rainald Menge-Sonnentag

OpenAI hat eine spezielle Version von GPT-3 vorgestellt, die Bilder aufgrund von Beschreibungen erstellen kann. DALL-E nutzt einen Datensatz von Text-Bild-Paaren und soll in der Lage sein, mehr oder wenige beliebige Kombinationen richtig zu interpretieren. Das System kann Bilder von Grund auf erstellen oder vorhandene Bilder modifizieren.

Der Projektname ist ein Kofferwort aus dem Nachnamen des spanischen Künstlers Salvador Dali und des Pixar-Films "WALL-E". Es handelt sich um eine Version des Sprachmodells Generative Pre-trained Transformer 3 (GPT-3) mit 12 Milliarden Parametern.

Der Blogbeitrag zu DALL-E zeigt einige Beispiele, die teils beeindruckende Ergebnisse, aber auch Fehler aufzeigen. Die Eingaben reichen dabei von naheliegenden Texten wie "ein Schaufenster mit dem Schriftzug openai" ("a store front that has the word ‘openai’ written on it") oder "ein kleiner roter Baustein, der auf einem großen grünen Baustein liegt" ("a small red block sitting on a large green block") bis zu skurrilen Beschreibungen wie "eine Zeichnung eines Baby-Rettichs im rosa Tutu, der einen Hund spazieren führt" ("an illustration of a baby daikon radish in a tutu walking a dog") oder "eine Schnecke, die aus einer Harfe besteht" ("a snail made of harp").

Bei der Schneckenharfe beweist DALL-E durchaus KI-Kreativität.

(Bild: OpenAI)

Die Beschreibungen nutzen teilweise Anthropomorphismus, also die Vermenschlichung von Tieren oder Objekten, um künstliche bis künstlerische Ergebnisse zu erreichen. Außerdem ist DALL-E wohl in der Lage, Bilder in eine andere Form zu übersetzen, um beispielsweise aus dem Foto einer Katze eine Skizze zu erstellen.

DALL-E bietet Zugriff auf eine 3D-Rendering-Engine über natürliche Sprache und kann dabei die Lichtverhältnisse oder Winkel genau steuern. Bei komplexeren Beschreibungen wie "Ein Emoji eines Babypinguins, der eine blaue Mütze, rote Handschuhe, ein grünes Hemd und eine gelbe Hose trägt" ("en emoji of a baby penguin wearing a blue hat, red gloves, green shirt, and yellow pants") vertut sich das System wohl bei einigen Ausgaben mit der korrekten Farbzuordnung.

Der Blogbeitrag zeigt zahlreiche Beispiele und nutzt für die optimale Auswahl der Bilder ein weiteres neues Tool von OpenAI: CLIP (Contrastive Language-Image Pre-training) ist ein künstliches neuronales Netz, das visuelle Konzepte in Kategorien umsetzt. Dafür setzt es wie GPT-3 auf Zero-Shot Learning (ZSL), um Objekte zu erkennen, die beim Training des Netzes nicht klassifiziert wurden.

OpenAI hat CLIP für ein Reranking der mit DALL-E erstellten Bilder genutzt, um aus 512 Bildern die Top 32 zu ermitteln. Eine manuelles "Rosinenpicken" hat die Auswahl dagegen laut dem Beitrag zu DALL-E nicht beeinflusst.

DALL-Es Vorstellung eines Rettichs mit Tutu und Hund

(Bild: OpenAI)

Neben den kreativen Versuchen hat DALL-E wohl beim Training einiges an geografischem Grundverständnis mitgenommen, um beispielsweise Häuserketten in San Francisco glaubhaft zu erstellen, die so in der Realität nicht existieren. Auch Flaggen oder Speisen kann das System korrekt zuordnen. Der Blogbeitrag räumt jedoch ein, dass es gerade bei kulinarischen Gerichten und der Tierwelt bestimmter Länder auf einzelne Stereotype zurückgreift.

Weitere Details sowie eine Auflistung der Arbeiten, die Grundlage für das Projekt sind, lassen sich dem OpenAI-Blog entnehmen. Für die nähere Zukunft plant das Team hinter DALL-E eine genauere Untersuchung, wie sich das Modell auf gesellschaftliche Themen auswirkt. Dabei will es auch das im Machine Learning immer wieder auftretende Problem von Bias, also Verzerrungen durch Vorurteile im Training und die ethischen Herausforderungen der Technik genauer untersuchen.

(rme)