KI-Bildgenerator für alle: DALL-E API geht in die Open Beta

Der KI-Bildgenerator DALL-E kann nun über eine API verwendet werden. Der Zugang zur API ist offen, die Nutzung jedoch nicht ohne Einschränkungen.

1

"An astronaut riding a horse in a photorealistic style": Ein klassicher Output von DALL-E

(Bild: https://openai.com/dall-e-2/)

04.11.2022, 17:04 Uhr

Lesezeit: 2 Min.

iX Magazin

Von

Kornelius Kindermann

Ab sofort können Entwickler den Bildgenerator DALL-E von OpenAI mithilfe einer API direkt in eigene Systeme einzubauen: Die API befindet sich jetzt in einer Open Beta. Nach dem Entfernen der Warteliste für den Bildgenerator im September ist dies ein weiterer Schritt von OpenAI, die KI der Öffentlichkeit zugänglich zu machen.

Die Schnittstelle erlaubt drei Varianten der Interaktion mit Bildern. Die Funktion, für die KI-Bildgeneratoren bekannt wurden – das Kreieren von neuen Bildern anhand von Texteingaben – ist weiterhin die prominenteste. Allerdings gibt es nun auch zwei Methoden, bestehende Bilder zu verändern: Edits und Variants. Ein Edit benutzt ein bestehendes Bild und eine PNG-Maske, um das Bild ausschließlich im maskierten Bereich zu verändern. Damit ist es auch möglich, den Bildausschnitt zu erweitern (Outpainting) – die KI fügt dann passende Inhalte hinzu, wie eine erweiterte Version von Johannes Vermeers „Mädchen mit Perlenohrring“ demonstriert. Variants werden benutzt, um alternative Versionen eines bestehenden Bilds zu erzeugen, beispielsweise um die Beleuchtung anzupassen oder störende Elemente zu entfernen.

Videos by heise

Offen mit Einschränkungen

Um die API zu verwenden, wird jedoch ein API Key zur Authentifizierung benötigt. Diesen erhält man erst nach einer Registrierung bei OpenAI. Außerdem wird eine Gebühr bei der Erstellung von Bildern fällig – abhängig von der Auflösung. Große Bilder mit 1024x1024 Pixel Auflösung kosten 0,02 US-Dollar, 512x512 Pixel kosten 0,018 US-Dollar, kleine Bilder in der Größe von 256x256 Pixel kosten 0,016 US-Dollar.

Um die Auslastung stemmen zu können, ist der Zugriff durch die API ferner auf 10 Bilder pro Minute und 25 Bilder pro 5 Minuten begrenzt. Entwickler müssen sich also einschränken, kommerzielle Apps sind mit diesen Limitierungen nur schwer aufzubauen. Eine vollständige Dokumentation der API findet sich auf OpenAIs Website.

Erste Kunden wie Microsoft machen allerdings bereits vor, wie eine kommerzielle Nutzung aussehen könnte: Mit der Grafikdesign-App Designer sollen Grafikdesigner in Windeseile Inhalte für ihre Arbeit erstellen können – beispielsweise Social-Media-Beiträge oder Illustrationen. Letztlich wirkt die App aber vor allem wie eine No-Code-Version von dem, was DALL-E bereits leistet. Beim Start-up Mixtiles können Kunden das Ergebnis ihrer Texteingaben bereits fertig gedruckt und gerahmt kaufen, um ihre Wohnung ganz individuell zu dekorieren.