c't 11/2024
S. 116
Test & Beratung
Bildgeneratoren
Bild: KI-Collage

Pixelautomaten

KI-Bildgeneratoren im Test

Bildgeneratoren träumen Erstaunliches auf den Schirm. Dall-E, Midjourney, Stable Diffusion und andere entwickeln sich in schwindelerregendem Tempo weiter. Sowohl hinsichtlich des Textverständnisses des Prompts und der Detailtiefe der generierten Bilder als auch bezüglich der Rechtslage bei kommerzieller Nutzung stehen einige aber noch auf wackeligen Beinen.

Von André Kramer

KI-Bildgeneratoren erschaffen noch immer die mittlerweile ikonischen deformierten Hände und andere Details, die bei näherem Betrachten nicht recht zusammenpassen wollen. Die gröbsten Kinderkrankheiten haben sich zumindest bei den erfolgreichsten Vertretern aber mittlerweile erledigt: KI-Porträts lassen sich kaum noch von echten Fotos unterscheiden. Landschafts- und Architekturbilder überzeugen nicht mehr nur auf den ersten flüchtigen Blick, sondern auch im Detail. Selbst einfache Schriftzüge an Gebäuden wie „Hotel“ oder „Café“ sind nicht mehr völlig ausgeschlossen. Bis zu diesem Punkt haben die Betreiber der KI-Bildgeneratoren seit den ersten Anfängen gerade einmal zwei Jahre gebraucht: Im April 2022 revolutionierte OpenAI mit Dall-E 2.0 die Art, wie Bilder komponiert werden.

Nach dem ersten Hype sind Bildgeneratoren nicht mehr nur auf Instagram und Reddit, sondern auch im Büro angekommen. Zuvor mussten Bildbearbeiter Motivteile fotografieren, ausschneiden, arrangieren und farblich anpassen. All das erfordert technisches Know-how, kreatives Geschick und ein Auge für Perspektive, Farbe und Licht. Generative KI verspricht, einen Großteil dieser Arbeiten zu übernehmen.

Wir haben die bekanntesten KI-Bildgeneratoren getestet: das kostenlos nutzbare Craiyon, Dall-E 3.0 von OpenAI, den Generator der KI-Plattform DeepAI, DreamStudio beziehungsweise das dahinterliegende Open-Source-Modell Stable Diffusion XL 1.0, den iStock KI-Generator von Getty Images, Adobe Firefly V2 und Midjourney V6.

Generative KI ist sehr rechenintensiv. Üblicherweise verkaufen die Anbieter sie daher portionsweise. Nutzer von Midjourney erwerben ein gewisses Zeitkontingent, die meisten anderen Dienste bieten Tokens oder Credits an. Je höher die Auflösung und die Anzahl der generierten Bilder, desto mehr Credits werden vom Konto abgezogen. Ist der Monatsvorrat des Abos aufgebraucht, kann man ein Credit-Paket nachkaufen. Wie bei Netflix oder Spotify sind alle Abos monatlich kündbar. Und mehr als diese kosten sie auch nicht.

„Kids playing at a Donkey King arcade machine in front of a brick building with a neon sign reading Hotel in the background“ (oben v. l. Dall-E, DeepAI, DreamStudio, unten Firefly, iStock, Midjourney).
„Kids playing at a Donkey King arcade machine in front of a brick building with a neon sign reading Hotel in the background“ (oben v. l. Dall-E, DeepAI, DreamStudio, unten Firefly, iStock, Midjourney).

Rudimentäres Textverständnis

Jeden Bildgenerator steuert man über eine Befehlszeile, die den Prompt entgegennimmt. Die KI interpretiert den Text auf Grundlage ihrer Trainingsmenge, um daraus ein Bild zu erstellen (siehe Kasten). Gerade am Textverständnis hapert es oft. Im beruflichen Kontext kommt es aufs Detail an. Wenn es darum geht, ein Thai-Curry abzubilden, führt Ramen am Thema vorbei, auch wenn beide in die Kategorie asiatisches Essen gehören. Bildgeneratoren erzeugen zwar beeindruckende Bilderwelten, je länger der Prompt ausfällt, desto eher machen sie jedoch, was sie wollen.

„A laughing woman eating from a wooden bowl filled with rice, onions and peas, no carrots“ (oben v. l. Dall-E, DeepAI, DreamStudio, unten Firefly, iStock, Midjourney).
„A laughing woman eating from a wooden bowl filled with rice, onions and peas, no carrots“ (oben v. l. Dall-E, DeepAI, DreamStudio, unten Firefly, iStock, Midjourney).

Auch ein schwieriger Prompt: Ein Roboter liegt in einem Krankenbett und wird von einem menschlichen Arzt betreut. Im Ergebnis liegt oft der Mensch im Bett und der Roboter hält das Klemmbrett. KI-Systeme können nur reproduzieren, was sie gelernt haben. Da Roboter üblicherweise nicht im Krankenbett liegen, sondern eher bei der Behandlung unterstützen, bildeten Dall-E, Midjourney & Co. sie dort zuvor auch ungern ab. Die neuen Versionen schaffen diese Aufgabe ausnahmslos.

„Ein Roboter liegt in einem Krankenhausbett und ein menschlicher Arzt im weißen Kittel behandelt ihn mit Klemmbrett und Stethoskop“ (oben v. l. Dall-E, DeepAI, DreamStudio, unten Firefly, iStock, Midjourney).
„Ein Roboter liegt in einem Krankenhausbett und ein menschlicher Arzt im weißen Kittel behandelt ihn mit Klemmbrett und Stethoskop“ (oben v. l. Dall-E, DeepAI, DreamStudio, unten Firefly, iStock, Midjourney).

Die seit Ende 2023 erschienen Updates machen ihre Aufgabe deutlich besser und interpretieren komplexe Bildideen präziser als zuvor. Für negative Prompt ist in der Regel ein eigenes Feld wie bei Dream Studio oder ein Kommandozeilenbefehl wie --no bei Midjourney hinzugekommen. Texteingaben wie „Zeige A, aber nicht B“ verstehen die meisten Bildgeneratoren nicht.

OpenAI hat Dall-E 3 im Unterschied zum Vorgänger fest in ChatGPT beziehungsweise Bing Copilot integriert. Das Large Language Model (LLM) soll das Sprachverständnis des Bildgenerators signifikant verbessern. Der Befehl „Erbsen, aber keine Karotten“ führt jedoch weniger häufig ans Ziel als „Erbsen“. Zu echtem Textverständnis ist es noch ein weiter Weg.

Nachdem die Betreiber in die Kritik geraten waren, Desinformationskampagnen Vorschub zu leisten, filtern ihre Generatoren zunehmend die Prompts. Allerdings gehen die Betreiber nicht einheitlich vor: Midjourney, Dall-E oder Firefly generieren etwa keine Bilder von Prominenten, Stable Diffusion aber durchaus. Bildideen mit Regierungsvertretern lehnen hingegen fast alle Generatoren angesichts der anstehenden US-Wahlen pauschal ab — selbst zahme, in denen sich Biden und Macron die Hand geben sollen. Nacktheit blockieren die meisten ebenfalls, Gewaltdarstellungen und politisch extreme Symbole jedoch nicht. Hier kommen die Wertvorstellungen der USA, Heimat von Dall-E und Midjourney, durch. Auch die Darstellung von Drogen blockieren viele. Der Bildgenerator von Getty Images verweigert sich selbst Markennamen wie Disney, Pixar, Nikon und Fujifilm, was das Prompting in ein Synonymspiel ausarten lässt.

„Joe Biden neben der Freiheitsstatue, Emmanuel Macron vor dem Eiffelturm und Olaf Scholz vor dem Brandenburger Tor geben sich die Hand“ (v. l. Dall-E, DreamStudio (Stable Diffusion), Adobe Firefly).
„Joe Biden neben der Freiheitsstatue, Emmanuel Macron vor dem Eiffelturm und Olaf Scholz vor dem Brandenburger Tor geben sich die Hand“ (v. l. Dall-E, DreamStudio (Stable Diffusion), Adobe Firefly).

Die Trainingsdaten: rechtliches Neuland

Die Hersteller brauchen Milliarden von Bildersätzen nebst Beschreibungen zum Inhalt, um ihre Modelle zu trainieren. Viele stammen bisher meistens von irgendwoher aus dem Netz. Was als reines Forschungsprojekt Applaus bringt, wird zum Zündstoff, wenn Bildgeneratoren kommerziell eingesetzt werden.

Die Frage nach Urheber- und Nutzungsrechten ist ein bisher ungeklärter Streitpunkt. Stockfotograf und c’t-Autor Robert Kneschke klagt vor dem Hamburger Landgericht gegen den Betreiber von „Laion-5B“ (Large-scale AI Open Network). In der öffentlich einsehbaren Bilddatenbank, die 5,8 Milliarden Fotos nebst Beschreibungen und Quellenangaben enthält, fand Kneschke auch einige seiner Stockfotos, mit denen er seinen Lebensunterhalt verdient. Laion-5B dient dazu, Bildgeneratoren zu trainieren, unter anderem Stable Diffusion von Stability AI und Midjourney. Diese Unternehmen verdienen wiederum mit ihren Diensten Geld.

Die US-amerikanische Bildagentur Getty Images verklagt Stability AI in Großbritannien sowie den USA und fordert die Zerstörung aller mit Getty-Bildern trainierten Modelle. Stable Diffusion soll mit 12 Millionen Bildern der Agentur trainiert worden zu sein. Den Beweis hat Stable Diffusion selbst erbracht: Die Software gab Bilder aus, auf denen das Wasserzeichen von Getty Images erkennbar war.

„Porträt einer Frau mit Haaren aus Schnittlauch“ (oben v. l. Dall-E, DeepAI, DreamStudio, unten Firefly, iStock, Midjourney).
„Porträt einer Frau mit Haaren aus Schnittlauch“ (oben v. l. Dall-E, DeepAI, DreamStudio, unten Firefly, iStock, Midjourney).

Adobe hat sein KI-Modell Firefly hingegen nur mit Bildern aus Adobe Stock trainiert sowie mit Public-Domain-Inhalten und solchen, bei denen das Urheberrecht bereits erloschen ist. Ähnlich Getty Images: Nvidia trainierte ein Modell mit der Kreativbibliothek von Getty und iStock, die klassische Stockfotos wie den Business-Handshake und die lachende Salatesserin anbietet, also keine Pressefotos aus Politik, Kultur oder Sport.

Dall-E und Firefly sind in die Content Authenticity Initiative (CAI) eingebunden. Die CAI wurde ins Leben gerufen, um die Echtheit von Bildmaterial zu zertifizieren. Firefly schreibt sogenannte „Content Credentials“ in die Metadaten seiner Erzeugnisse, die sie als KI-generiert ausweisen. Die im Februar 2021 gegründete „Coalition for Content Provenance and Authenticity“ (C2PA) formuliert die technischen Standards der CAI unter der Creative Commons Lizenz CC BY 4.0. Über contentcredentials.org/verify lassen sich Bilder hochladen und auf ihre Urheberschaft überprüfen, auch wenn die Metadaten gelöscht wurden. Alle Bilder aus Dall-E und Firefly bescheinigt sie als KI-generiert.

„Drei Deutsche in Lederhosen trinken Bier aus Maßkrügen und rauchen Joints, vor ihnen ein Tisch mit Marihuana, im Hintergrund eine Deutschlandflagge“ (oben v. l. Dall-E, DeepAI, DreamStudio, unten Firefly, iStock, Midjourney).
„Drei Deutsche in Lederhosen trinken Bier aus Maßkrügen und rauchen Joints, vor ihnen ein Tisch mit Marihuana, im Hintergrund eine Deutschlandflagge“ (oben v. l. Dall-E, DeepAI, DreamStudio, unten Firefly, iStock, Midjourney).

So sieht es aus

Im Großen und Ganzen hat Midjourney hinsichtlich der Bildqualität die Nase vorn, generiert Bilder mit der höchsten Detailtiefe, der besten Beleuchtung, den wärmsten Farben und der besten Stimmung. Aber darauf kommt es nicht immer an. Dall-E interpretiert den Prompt genauer. Hier kommt OpenAI die Expertise von ChatGPT zugute, in das Dall-E 3 eingebunden ist. Unkomfortabel ist Midjourneys Einbindung in den Gamerchat von Discord. Dall-E lässt sich über ChatGPT nutzen sowie kostenlos über den Microsoft Copilot im Bing-Chat.

DreamStudio beziehungsweise Stable Diffusion unterlaufen immer noch Fehler bei der Anatomie, die Dall-E und Midjourney nicht mehr machen. Zudem muss sich Stability AI in mehreren Verfahren vor Gericht für seine Datenbasis verantworten. Nutzer sind hier aber freier bei der Gestaltung, weil der Anbieter weniger Begriffe im Prompt blockiert. Das kann man aber auch so sehen, dass er seiner Verantwortung nicht nachkommt, weder beim Filtern der Prompts, um Fake News vorzubeugen, noch bei der Datenbasis, die der KI zugrunde liegt.

Fazit

Midjourney, Dall-E, Stable Diffusion & Co. lernen in atemberaubenden Tempo dazu. Nicht nur machen sie weniger Fehler bei Anatomie, Anschlüssen und Details als zuvor – die kommen immer noch vor –, vor allem aber geben sie die Bildidee im Prompt immer präziser wieder. Was vor einem halben Jahr noch unmöglich war, der Roboter im Krankenbett mit einem Arzt stehend neben ihm, bekommen mittlerweile alle hin. Noch ist bei der Bildqualität Luft nach oben, es geht aber stetig voran.

Rechtsstreits zeigen, dass Urheber wie Stockfotografen nicht mehr hinnehmen, dass KI-Betreiber mit ihren Inhalten Geld verdienen. Beim Einsatz von Dall-E, Stable Diffusion und Midjourney ist Vorsicht geboten. Für sichere kommerzielle Nutzung bleiben Adobe Firefly und der iStock KI-Generator von Getty Images. Beide Hersteller nutzen nur ihre eigene gesicherte Datenbasis fürs Training und entlohnen Stockfotografen dafür. Adobe hat früher angefangen und ist entsprechend weiter: Firefly V2 liefert deutlich bessere Bildqualität, mehr Details und höhere Auflösung als iStock. Für Grafiker und Agenturen ist Adobe Firefly daher die erste Wahl. (akr@ct.de)

KI-Bildgeneratoren
Produkt Craiyon V3 DALL·E 3 DeepAI DreamStudio (SDXL) Firefly V2 iStock KI-Generator Midjourney V6
Hersteller, URL Crayion, craiyon.com Open.ai, openai.com/dall-e-3 DeepAI, deepai.com Stability AI, dreamstudio.ai Adobe, firefly.adobe.com Getty Images, istockphoto.com Midjourney, midjourney.com
Systemanf. Webbrowser Webbrowser Webbrowser Webbrowser Webbrowser Webbrowser Webbrowser
Sprachen Englisch, Deutsch Englisch, Deutsch Englisch, Deutsch Englisch, Deutsch Englisch, Deutsch Englisch, Deutsch Englisch, Deutsch
Allgemeines
Engine Eigenentwicklung DALL-E 3 Eigenentwicklung SDXL 1.0 (Stable Diffusion) Adobe Firefly Nvidia Picasso Midjourney Model 6
Dauer (bei Standardeinstellung) 55 s (kostenlose Version, schneller im Abo) 20 s 19 s 20 s 13 s 15 s 41 s
Online-Community Adobe Behance via Discord
Quellennachweis der Trainingsdaten Inhalte von Adobe Stock Inhalte der Kreativ-Bibliothek von Getty/iStock
CAI-Urhebernachweis (generiertes Bild)
Haftungsfreistellung für kommerzielle Nutzung optional für Unternehmen bis 10.000 US-$ pro Bild
Ausgabe
Ausgabeformat / Auflösung PNG / 256 × 256 Pixel WebP / 1024 × 1024 Pixel JPEG / 1024 × 1024 Pixel PNG / 1024 × 1024 Pixel PNG / 2048 × 2048 Pixel JPEG / 1024 × 1024 Pixel PNG / 1024 × 1024 Pixel
Anzahl der Ausgabebilder 9 1 1 1 bis 10 (Standard 4) 4 im Web, 3 in Photoshop 4 4
Variationen erzeugen ✓ (via ChatGPT) ✓ (4) ✓ (auch Stilreferenz) ✓ (4) ✓ (4)
Bilder online speichern ✓ (nicht öffentlich) ✓ (die letzten 100)
Finetuning
Stilvorgaben Art, Photo, Drawing, keine ✓ (über Prompt) Fantasy, Cyberpunk, Anime, Renaissance-Gemälde, Origami, Pixel Art u.a. Anime, fotografisch, Comic, Fantasy, Neon-Punk, isometrisch, Origami, Pixel Art u.a. Art Déco, Film noir, Cyberpunk, Acrylfarbe, Schichtpapier, Synthwave, Barock, Bauhaus u.v.a. Foto, Grafik, Farben und Stimmung ✓ (über Prompt, Web-Oberfläche in Vorbereitung)
Seitenverhältnis einstellen – (stets 1:1) ✓ (über Prompt) 21:9, 16:9, 1:1, 9:16, 9:21 21:9, 16:9, 3:2, 5:4, 1:1, 4:5, 2:3, 9:16, 9:21 4:3, 3:4, 1:1, 16:9 16:9, 5:4, 1:1, 4:5, 9:16 ✓ (--aspect oder --ar, beliebige Ziffern)
negative Prompts ✓ (über Prompt) ✓ (--no)
Hilfe für Prompts ✓ (Promptvorschläge) ✓ (via ChatGPT/Copilot) ✓ (wiss. Paper als PDF) ✓ (Beispiel-Prompts) ✓ (validiert Prompts) ✓ (Prompt-Builder) ✓ (Dokumentation)
Bilddateien als Vorlage ✓ (Form- und Stilvorlage) ✓ (über Prompt)
Leinwand vergrößern (Zoom out) ✓ (via Skylum Luminar) ✓ (via Photoshop) ✓ (über Prompt)
Motive in Fotos kopieren ✓ (Bildbereich markieren) ✓ (via Skylum Luminar) ✓ (via Photoshop) ✓ (Bildbereich markieren) ✓ (Rechteckauswahl)
Auflösung erhöhen ✓ (bis 1024 × 1024 Pixel) ✓ (bis 3200 × 3200 Pixel) ✓ (bis 1024 × 1024 Pixel) ✓ (bis 4096 × 4096 Pixel) ✓ (bis 2048 × 2048 Pixel)
Regler für Vorlagentreue ✓ (visuelle Intensität)
Weitere Werkzeuge Hintergrund entfernen Radierer, Rahmeneditor Hintergrund entfernen API Key, Prompt Guide Brennweite, Belichtung, Blende, Hintergrund entfernen, Text hinzufügen Bildmotive retuschieren Prompt aus Bild, Bilder mischen
darstellbare Inhalte
Prominente / politische Symbole ✓ / ✓ – / – (gefiltert) – (gefiltert) / ✓ ✓ / ✓ – / – (unverfänglich ersetzt) – / – (gefiltert) – (gefiltert, Sperrung) / ✓
Nacktheit / Gewalt ✓ / ✓ – / – (gefiltert) – / – (gefiltert) – / – (gefiltert) – / – (gefiltert) – / – (gefiltert) – (gefiltert, Sperrung) / ✓
Drogen – (gefiltert) – (gefiltert) – (gefiltert)
Schrift – (bedingt) – (bedingt) – (sehr bedingt)
Zugang und Modell
kostenloses Angebot ✓ (mit Craiyon-Logo) ✓ (über Bing Copilot) ✓ (200 Credits) ✓ (25 Credits pro Monat)
Log-in E-Mail-Adresse, Google (nicht erforderlich) E-Mail-Adresse Google, GitHub Discord, Google Adobe-ID iStock-Konto Discord-Konto
Werbung im Web
Bewertung
Bedienung / Funktionsumfang plusplus / minusminus neutral / plus plus / minus plusplus / neutral plusplus / plus neutral / neutral minus / plus
Abo und Preis / Geschwindigkeit plusplus / minus plus / plus plus / plus plus / plus plus / plusplus minus / plusplus neutral / neutral
Detailtiefe / Umsetzung des Prompt minusminus / minusminus plus / plus minus / neutral minus / neutral plus / minus minus / minus plusplus / plusplus
Schrift / Anatomie minusminus / minusminus plus / plusplus neutral / minusminus neutral / minus minus / neutral minusminus / minus neutral / plusplus
Preis kostenlos, 5 US-$ pro Monat kostenlos (Bing Copilot), 23,80 US-$ (ChatGPT) kostenlos, 4,99 US-$ pro Monat (500 Credits) 10 US-$ (1000 Credits) kostenlos, ab 5,49 € pro Monat (100 Credits) 13,99 € (100 Credits) 11,90 US-$ pro Monat (3,3 h GPU-Zeit)
plusplus sehr gut plus gut neutral zufriedenstellend minus schlecht minusminus sehr schlecht ✓ vorhanden – nicht vorhanden k.A. keine Angabe

Kommentieren