Pixelautomaten
KI-Bildgeneratoren im Test
Bildgeneratoren träumen Erstaunliches auf den Schirm. Dall-E, Midjourney, Stable Diffusion und andere entwickeln sich in schwindelerregendem Tempo weiter. Sowohl hinsichtlich des Textverständnisses des Prompts und der Detailtiefe der generierten Bilder als auch bezüglich der Rechtslage bei kommerzieller Nutzung stehen einige aber noch auf wackeligen Beinen.
KI-Bildgeneratoren erschaffen noch immer die mittlerweile ikonischen deformierten Hände und andere Details, die bei näherem Betrachten nicht recht zusammenpassen wollen. Die gröbsten Kinderkrankheiten haben sich zumindest bei den erfolgreichsten Vertretern aber mittlerweile erledigt: KI-Porträts lassen sich kaum noch von echten Fotos unterscheiden. Landschafts- und Architekturbilder überzeugen nicht mehr nur auf den ersten flüchtigen Blick, sondern auch im Detail. Selbst einfache Schriftzüge an Gebäuden wie „Hotel“ oder „Café“ sind nicht mehr völlig ausgeschlossen. Bis zu diesem Punkt haben die Betreiber der KI-Bildgeneratoren seit den ersten Anfängen gerade einmal zwei Jahre gebraucht: Im April 2022 revolutionierte OpenAI mit Dall-E 2.0 die Art, wie Bilder komponiert werden.
Nach dem ersten Hype sind Bildgeneratoren nicht mehr nur auf Instagram und Reddit, sondern auch im Büro angekommen. Zuvor mussten Bildbearbeiter Motivteile fotografieren, ausschneiden, arrangieren und farblich anpassen. All das erfordert technisches Know-how, kreatives Geschick und ein Auge für Perspektive, Farbe und Licht. Generative KI verspricht, einen Großteil dieser Arbeiten zu übernehmen.
Wir haben die bekanntesten KI-Bildgeneratoren getestet: das kostenlos nutzbare Craiyon, Dall-E 3.0 von OpenAI, den Generator der KI-Plattform DeepAI, DreamStudio beziehungsweise das dahinterliegende Open-Source-Modell Stable Diffusion XL 1.0, den iStock KI-Generator von Getty Images, Adobe Firefly V2 und Midjourney V6.
Generative KI ist sehr rechenintensiv. Üblicherweise verkaufen die Anbieter sie daher portionsweise. Nutzer von Midjourney erwerben ein gewisses Zeitkontingent, die meisten anderen Dienste bieten Tokens oder Credits an. Je höher die Auflösung und die Anzahl der generierten Bilder, desto mehr Credits werden vom Konto abgezogen. Ist der Monatsvorrat des Abos aufgebraucht, kann man ein Credit-Paket nachkaufen. Wie bei Netflix oder Spotify sind alle Abos monatlich kündbar. Und mehr als diese kosten sie auch nicht.
Rudimentäres Textverständnis
Jeden Bildgenerator steuert man über eine Befehlszeile, die den Prompt entgegennimmt. Die KI interpretiert den Text auf Grundlage ihrer Trainingsmenge, um daraus ein Bild zu erstellen (siehe Kasten). Gerade am Textverständnis hapert es oft. Im beruflichen Kontext kommt es aufs Detail an. Wenn es darum geht, ein Thai-Curry abzubilden, führt Ramen am Thema vorbei, auch wenn beide in die Kategorie asiatisches Essen gehören. Bildgeneratoren erzeugen zwar beeindruckende Bilderwelten, je länger der Prompt ausfällt, desto eher machen sie jedoch, was sie wollen.
Auch ein schwieriger Prompt: Ein Roboter liegt in einem Krankenbett und wird von einem menschlichen Arzt betreut. Im Ergebnis liegt oft der Mensch im Bett und der Roboter hält das Klemmbrett. KI-Systeme können nur reproduzieren, was sie gelernt haben. Da Roboter üblicherweise nicht im Krankenbett liegen, sondern eher bei der Behandlung unterstützen, bildeten Dall-E, Midjourney & Co. sie dort zuvor auch ungern ab. Die neuen Versionen schaffen diese Aufgabe ausnahmslos.
Die seit Ende 2023 erschienen Updates machen ihre Aufgabe deutlich besser und interpretieren komplexe Bildideen präziser als zuvor. Für negative Prompt ist in der Regel ein eigenes Feld wie bei Dream Studio oder ein Kommandozeilenbefehl wie --no bei Midjourney hinzugekommen. Texteingaben wie „Zeige A, aber nicht B“ verstehen die meisten Bildgeneratoren nicht.
OpenAI hat Dall-E 3 im Unterschied zum Vorgänger fest in ChatGPT beziehungsweise Bing Copilot integriert. Das Large Language Model (LLM) soll das Sprachverständnis des Bildgenerators signifikant verbessern. Der Befehl „Erbsen, aber keine Karotten“ führt jedoch weniger häufig ans Ziel als „Erbsen“. Zu echtem Textverständnis ist es noch ein weiter Weg.
Nachdem die Betreiber in die Kritik geraten waren, Desinformationskampagnen Vorschub zu leisten, filtern ihre Generatoren zunehmend die Prompts. Allerdings gehen die Betreiber nicht einheitlich vor: Midjourney, Dall-E oder Firefly generieren etwa keine Bilder von Prominenten, Stable Diffusion aber durchaus. Bildideen mit Regierungsvertretern lehnen hingegen fast alle Generatoren angesichts der anstehenden US-Wahlen pauschal ab — selbst zahme, in denen sich Biden und Macron die Hand geben sollen. Nacktheit blockieren die meisten ebenfalls, Gewaltdarstellungen und politisch extreme Symbole jedoch nicht. Hier kommen die Wertvorstellungen der USA, Heimat von Dall-E und Midjourney, durch. Auch die Darstellung von Drogen blockieren viele. Der Bildgenerator von Getty Images verweigert sich selbst Markennamen wie Disney, Pixar, Nikon und Fujifilm, was das Prompting in ein Synonymspiel ausarten lässt.
Die Trainingsdaten: rechtliches Neuland
Die Hersteller brauchen Milliarden von Bildersätzen nebst Beschreibungen zum Inhalt, um ihre Modelle zu trainieren. Viele stammen bisher meistens von irgendwoher aus dem Netz. Was als reines Forschungsprojekt Applaus bringt, wird zum Zündstoff, wenn Bildgeneratoren kommerziell eingesetzt werden.
Die Frage nach Urheber- und Nutzungsrechten ist ein bisher ungeklärter Streitpunkt. Stockfotograf und c’t-Autor Robert Kneschke klagt vor dem Hamburger Landgericht gegen den Betreiber von „Laion-5B“ (Large-scale AI Open Network). In der öffentlich einsehbaren Bilddatenbank, die 5,8 Milliarden Fotos nebst Beschreibungen und Quellenangaben enthält, fand Kneschke auch einige seiner Stockfotos, mit denen er seinen Lebensunterhalt verdient. Laion-5B dient dazu, Bildgeneratoren zu trainieren, unter anderem Stable Diffusion von Stability AI und Midjourney. Diese Unternehmen verdienen wiederum mit ihren Diensten Geld.
Die US-amerikanische Bildagentur Getty Images verklagt Stability AI in Großbritannien sowie den USA und fordert die Zerstörung aller mit Getty-Bildern trainierten Modelle. Stable Diffusion soll mit 12 Millionen Bildern der Agentur trainiert worden zu sein. Den Beweis hat Stable Diffusion selbst erbracht: Die Software gab Bilder aus, auf denen das Wasserzeichen von Getty Images erkennbar war.
Adobe hat sein KI-Modell Firefly hingegen nur mit Bildern aus Adobe Stock trainiert sowie mit Public-Domain-Inhalten und solchen, bei denen das Urheberrecht bereits erloschen ist. Ähnlich Getty Images: Nvidia trainierte ein Modell mit der Kreativbibliothek von Getty und iStock, die klassische Stockfotos wie den Business-Handshake und die lachende Salatesserin anbietet, also keine Pressefotos aus Politik, Kultur oder Sport.
Dall-E und Firefly sind in die Content Authenticity Initiative (CAI) eingebunden. Die CAI wurde ins Leben gerufen, um die Echtheit von Bildmaterial zu zertifizieren. Firefly schreibt sogenannte „Content Credentials“ in die Metadaten seiner Erzeugnisse, die sie als KI-generiert ausweisen. Die im Februar 2021 gegründete „Coalition for Content Provenance and Authenticity“ (C2PA) formuliert die technischen Standards der CAI unter der Creative Commons Lizenz CC BY 4.0. Über contentcredentials.org/verify lassen sich Bilder hochladen und auf ihre Urheberschaft überprüfen, auch wenn die Metadaten gelöscht wurden. Alle Bilder aus Dall-E und Firefly bescheinigt sie als KI-generiert.
So sieht es aus
Im Großen und Ganzen hat Midjourney hinsichtlich der Bildqualität die Nase vorn, generiert Bilder mit der höchsten Detailtiefe, der besten Beleuchtung, den wärmsten Farben und der besten Stimmung. Aber darauf kommt es nicht immer an. Dall-E interpretiert den Prompt genauer. Hier kommt OpenAI die Expertise von ChatGPT zugute, in das Dall-E 3 eingebunden ist. Unkomfortabel ist Midjourneys Einbindung in den Gamerchat von Discord. Dall-E lässt sich über ChatGPT nutzen sowie kostenlos über den Microsoft Copilot im Bing-Chat.
DreamStudio beziehungsweise Stable Diffusion unterlaufen immer noch Fehler bei der Anatomie, die Dall-E und Midjourney nicht mehr machen. Zudem muss sich Stability AI in mehreren Verfahren vor Gericht für seine Datenbasis verantworten. Nutzer sind hier aber freier bei der Gestaltung, weil der Anbieter weniger Begriffe im Prompt blockiert. Das kann man aber auch so sehen, dass er seiner Verantwortung nicht nachkommt, weder beim Filtern der Prompts, um Fake News vorzubeugen, noch bei der Datenbasis, die der KI zugrunde liegt.
Fazit
Midjourney, Dall-E, Stable Diffusion & Co. lernen in atemberaubenden Tempo dazu. Nicht nur machen sie weniger Fehler bei Anatomie, Anschlüssen und Details als zuvor – die kommen immer noch vor –, vor allem aber geben sie die Bildidee im Prompt immer präziser wieder. Was vor einem halben Jahr noch unmöglich war, der Roboter im Krankenbett mit einem Arzt stehend neben ihm, bekommen mittlerweile alle hin. Noch ist bei der Bildqualität Luft nach oben, es geht aber stetig voran.
Rechtsstreits zeigen, dass Urheber wie Stockfotografen nicht mehr hinnehmen, dass KI-Betreiber mit ihren Inhalten Geld verdienen. Beim Einsatz von Dall-E, Stable Diffusion und Midjourney ist Vorsicht geboten. Für sichere kommerzielle Nutzung bleiben Adobe Firefly und der iStock KI-Generator von Getty Images. Beide Hersteller nutzen nur ihre eigene gesicherte Datenbasis fürs Training und entlohnen Stockfotografen dafür. Adobe hat früher angefangen und ist entsprechend weiter: Firefly V2 liefert deutlich bessere Bildqualität, mehr Details und höhere Auflösung als iStock. Für Grafiker und Agenturen ist Adobe Firefly daher die erste Wahl. (akr@ct.de)
| KI-Bildgeneratoren | |||||||
| Produkt | Craiyon V3 | DALL·E 3 | DeepAI | DreamStudio (SDXL) | Firefly V2 | iStock KI-Generator | Midjourney V6 |
| Hersteller, URL | Crayion, craiyon.com | Open.ai, openai.com/dall-e-3 | DeepAI, deepai.com | Stability AI, dreamstudio.ai | Adobe, firefly.adobe.com | Getty Images, istockphoto.com | Midjourney, midjourney.com |
| Systemanf. | Webbrowser | Webbrowser | Webbrowser | Webbrowser | Webbrowser | Webbrowser | Webbrowser |
| Sprachen | Englisch, Deutsch | Englisch, Deutsch | Englisch, Deutsch | Englisch, Deutsch | Englisch, Deutsch | Englisch, Deutsch | Englisch, Deutsch |
| Allgemeines | |||||||
| Engine | Eigenentwicklung | DALL-E 3 | Eigenentwicklung | SDXL 1.0 (Stable Diffusion) | Adobe Firefly | Nvidia Picasso | Midjourney Model 6 |
| Dauer (bei Standardeinstellung) | 55 s (kostenlose Version, schneller im Abo) | 20 s | 19 s | 20 s | 13 s | 15 s | 41 s |
| Online-Community | – | – | – | – | Adobe Behance | – | via Discord |
| Quellennachweis der Trainingsdaten | – | – | – | – | Inhalte von Adobe Stock | Inhalte der Kreativ-Bibliothek von Getty/iStock | – |
| CAI-Urhebernachweis (generiertes Bild) | – | ✓ | – | – | ✓ | – | – |
| Haftungsfreistellung für kommerzielle Nutzung | – | – | – | – | optional für Unternehmen | bis 10.000 US-$ pro Bild | – |
| Ausgabe | |||||||
| Ausgabeformat / Auflösung | PNG / 256 × 256 Pixel | WebP / 1024 × 1024 Pixel | JPEG / 1024 × 1024 Pixel | PNG / 1024 × 1024 Pixel | PNG / 2048 × 2048 Pixel | JPEG / 1024 × 1024 Pixel | PNG / 1024 × 1024 Pixel |
| Anzahl der Ausgabebilder | 9 | 1 | 1 | 1 bis 10 (Standard 4) | 4 im Web, 3 in Photoshop | 4 | 4 |
| Variationen erzeugen | – | ✓ (via ChatGPT) | – | ✓ (4) | ✓ (auch Stilreferenz) | ✓ (4) | ✓ (4) |
| Bilder online speichern | ✓ (nicht öffentlich) | – | ✓ | ✓ (die letzten 100) | ✓ | ✓ | ✓ |
| Finetuning | |||||||
| Stilvorgaben | Art, Photo, Drawing, keine | ✓ (über Prompt) | Fantasy, Cyberpunk, Anime, Renaissance-Gemälde, Origami, Pixel Art u.a. | Anime, fotografisch, Comic, Fantasy, Neon-Punk, isometrisch, Origami, Pixel Art u.a. | Art Déco, Film noir, Cyberpunk, Acrylfarbe, Schichtpapier, Synthwave, Barock, Bauhaus u.v.a. | Foto, Grafik, Farben und Stimmung | ✓ (über Prompt, Web-Oberfläche in Vorbereitung) |
| Seitenverhältnis einstellen | – (stets 1:1) | ✓ (über Prompt) | 21:9, 16:9, 1:1, 9:16, 9:21 | 21:9, 16:9, 3:2, 5:4, 1:1, 4:5, 2:3, 9:16, 9:21 | 4:3, 3:4, 1:1, 16:9 | 16:9, 5:4, 1:1, 4:5, 9:16 | ✓ (--aspect oder --ar, beliebige Ziffern) |
| negative Prompts | ✓ | ✓ (über Prompt) | – | ✓ | – | ✓ | ✓ (--no) |
| Hilfe für Prompts | ✓ (Promptvorschläge) | ✓ (via ChatGPT/Copilot) | ✓ (wiss. Paper als PDF) | ✓ (Beispiel-Prompts) | ✓ (validiert Prompts) | ✓ (Prompt-Builder) | ✓ (Dokumentation) |
| Bilddateien als Vorlage | – | ✓ | – | ✓ | ✓ (Form- und Stilvorlage) | – | ✓ (über Prompt) |
| Leinwand vergrößern (Zoom out) | – | – | – | ✓ (via Skylum Luminar) | ✓ (via Photoshop) | ✓ | ✓ (über Prompt) |
| Motive in Fotos kopieren | – | ✓ (Bildbereich markieren) | – | ✓ (via Skylum Luminar) | ✓ (via Photoshop) | ✓ (Bildbereich markieren) | ✓ (Rechteckauswahl) |
| Auflösung erhöhen | ✓ (bis 1024 × 1024 Pixel) | – | ✓ (bis 3200 × 3200 Pixel) | ✓ (bis 1024 × 1024 Pixel) | – | ✓ (bis 4096 × 4096 Pixel) | ✓ (bis 2048 × 2048 Pixel) |
| Regler für Vorlagentreue | – | – | – | ✓ | ✓ (visuelle Intensität) | – | – |
| Weitere Werkzeuge | Hintergrund entfernen | Radierer, Rahmeneditor | Hintergrund entfernen | API Key, Prompt Guide | Brennweite, Belichtung, Blende, Hintergrund entfernen, Text hinzufügen | Bildmotive retuschieren | Prompt aus Bild, Bilder mischen |
| darstellbare Inhalte | |||||||
| Prominente / politische Symbole | ✓ / ✓ | – / – (gefiltert) | – (gefiltert) / ✓ | ✓ / ✓ | – / – (unverfänglich ersetzt) | – / – (gefiltert) | – (gefiltert, Sperrung) / ✓ |
| Nacktheit / Gewalt | ✓ / ✓ | – / – (gefiltert) | – / – (gefiltert) | – / – (gefiltert) | – / – (gefiltert) | – / – (gefiltert) | – (gefiltert, Sperrung) / ✓ |
| Drogen | ✓ | – (gefiltert) | ✓ | ✓ | – (gefiltert) | – (gefiltert) | ✓ |
| Schrift | – | ✓ | – (bedingt) | ✓ | – (bedingt) | – | – (sehr bedingt) |
| Zugang und Modell | |||||||
| kostenloses Angebot | ✓ (mit Craiyon-Logo) | ✓ (über Bing Copilot) | ✓ | ✓ (200 Credits) | ✓ (25 Credits pro Monat) | – | – |
| Log-in | E-Mail-Adresse, Google (nicht erforderlich) | E-Mail-Adresse | Google, GitHub | Discord, Google | Adobe-ID | iStock-Konto | Discord-Konto |
| Werbung im Web | ✓ | – | ✓ | – | – | – | – |
| Bewertung | |||||||
| Bedienung / Funktionsumfang | / | / | / | / | / | / | / |
| Abo und Preis / Geschwindigkeit | / | / | / | / | / | / | / |
| Detailtiefe / Umsetzung des Prompt | / | / | / | / | / | / | / |
| Schrift / Anatomie | / | / | / | / | / | / | / |
| Preis | kostenlos, 5 US-$ pro Monat | kostenlos (Bing Copilot), 23,80 US-$ (ChatGPT) | kostenlos, 4,99 US-$ pro Monat (500 Credits) | 10 US-$ (1000 Credits) | kostenlos, ab 5,49 € pro Monat (100 Credits) | 13,99 € (100 Credits) | 11,90 US-$ pro Monat (3,3 h GPU-Zeit) |
| sehr gut gut zufriedenstellend schlecht sehr schlecht ✓ vorhanden – nicht vorhanden k.A. keine Angabe | |||||||