Bild: KI-Collage

Pixelautomaten

KI-Bildgeneratoren im Test

Bildgeneratoren träumen Erstaunliches auf den Schirm. Dall-E, Midjourney, Stable Diffusion und andere entwickeln sich in schwindelerregendem Tempo weiter. Sowohl hinsichtlich des Textverständnisses des Prompts und der Detailtiefe der generierten Bilder als auch bezüglich der Rechtslage bei kommerzieller Nutzung stehen einige aber noch auf wackeligen Beinen.

Von André Kramer

KI-Bildgeneratoren erschaffen noch immer die mittlerweile ikonischen deformierten Hände und andere Details, die bei näherem Betrachten nicht recht zusammenpassen wollen. Die gröbsten Kinderkrankheiten haben sich zumindest bei den erfolgreichsten Vertretern aber mittlerweile erledigt: KI-Porträts lassen sich kaum noch von echten Fotos unterscheiden. Landschafts- und Architekturbilder überzeugen nicht mehr nur auf den ersten flüchtigen Blick, sondern auch im Detail. Selbst einfache Schriftzüge an Gebäuden wie „Hotel“ oder „Café“ sind nicht mehr völlig ausgeschlossen. Bis zu diesem Punkt haben die Betreiber der KI-Bildgeneratoren seit den ersten Anfängen gerade einmal zwei Jahre gebraucht: Im April 2022 revolutionierte OpenAI mit Dall-E 2.0 die Art, wie Bilder komponiert werden.

Nach dem ersten Hype sind Bildgeneratoren nicht mehr nur auf Instagram und Reddit, sondern auch im Büro angekommen. Zuvor mussten Bildbearbeiter Motivteile fotografieren, ausschneiden, arrangieren und farblich anpassen. All das erfordert technisches Know-how, kreatives Geschick und ein Auge für Perspektive, Farbe und Licht. Generative KI verspricht, einen Großteil dieser Arbeiten zu übernehmen.

Wir haben die bekanntesten KI-Bildgeneratoren getestet: das kostenlos nutzbare Craiyon, Dall-E 3.0 von OpenAI, den Generator der KI-Plattform DeepAI, DreamStudio beziehungsweise das dahinterliegende Open-Source-Modell Stable Diffusion XL 1.0, den iStock KI-Generator von Getty Images, Adobe Firefly V2 und Midjourney V6.

Generative KI ist sehr rechenintensiv. Üblicherweise verkaufen die Anbieter sie daher portionsweise. Nutzer von Midjourney erwerben ein gewisses Zeitkontingent, die meisten anderen Dienste bieten Tokens oder Credits an. Je höher die Auflösung und die Anzahl der generierten Bilder, desto mehr Credits werden vom Konto abgezogen. Ist der Monatsvorrat des Abos aufgebraucht, kann man ein Credit-Paket nachkaufen. Wie bei Netflix oder Spotify sind alle Abos monatlich kündbar. Und mehr als diese kosten sie auch nicht.

„Kids playing at a Donkey King arcade machine in front of a brick building with a neon sign reading Hotel in the background“ (oben v. l. Dall-E, DeepAI, DreamStudio, unten Firefly, iStock, Midjourney).

Rudimentäres Textverständnis

Jeden Bildgenerator steuert man über eine Befehlszeile, die den Prompt entgegennimmt. Die KI interpretiert den Text auf Grundlage ihrer Trainingsmenge, um daraus ein Bild zu erstellen (siehe Kasten). Gerade am Textverständnis hapert es oft. Im beruflichen Kontext kommt es aufs Detail an. Wenn es darum geht, ein Thai-Curry abzubilden, führt Ramen am Thema vorbei, auch wenn beide in die Kategorie asiatisches Essen gehören. Bildgeneratoren erzeugen zwar beeindruckende Bilderwelten, je länger der Prompt ausfällt, desto eher machen sie jedoch, was sie wollen.

„A laughing woman eating from a wooden bowl filled with rice, onions and peas, no carrots“ (oben v. l. Dall-E, DeepAI, DreamStudio, unten Firefly, iStock, Midjourney).

Auch ein schwieriger Prompt: Ein Roboter liegt in einem Krankenbett und wird von einem menschlichen Arzt betreut. Im Ergebnis liegt oft der Mensch im Bett und der Roboter hält das Klemmbrett. KI-Systeme können nur reproduzieren, was sie gelernt haben. Da Roboter üblicherweise nicht im Krankenbett liegen, sondern eher bei der Behandlung unterstützen, bildeten Dall-E, Midjourney & Co. sie dort zuvor auch ungern ab. Die neuen Versionen schaffen diese Aufgabe ausnahmslos.

„Ein Roboter liegt in einem Krankenhausbett und ein menschlicher Arzt im weißen Kittel behandelt ihn mit Klemmbrett und Stethoskop“ (oben v. l. Dall-E, DeepAI, DreamStudio, unten Firefly, iStock, Midjourney).

Die seit Ende 2023 erschienen Updates machen ihre Aufgabe deutlich besser und interpretieren komplexe Bildideen präziser als zuvor. Für negative Prompt ist in der Regel ein eigenes Feld wie bei Dream Studio oder ein Kommandozeilenbefehl wie --no bei Midjourney hinzugekommen. Texteingaben wie „Zeige A, aber nicht B“ verstehen die meisten Bildgeneratoren nicht.

OpenAI hat Dall-E 3 im Unterschied zum Vorgänger fest in ChatGPT beziehungsweise Bing Copilot integriert. Das Large Language Model (LLM) soll das Sprachverständnis des Bildgenerators signifikant verbessern. Der Befehl „Erbsen, aber keine Karotten“ führt jedoch weniger häufig ans Ziel als „Erbsen“. Zu echtem Textverständnis ist es noch ein weiter Weg.

Nachdem die Betreiber in die Kritik geraten waren, Desinformationskampagnen Vorschub zu leisten, filtern ihre Generatoren zunehmend die Prompts. Allerdings gehen die Betreiber nicht einheitlich vor: Midjourney, Dall-E oder Firefly generieren etwa keine Bilder von Prominenten, Stable Diffusion aber durchaus. Bildideen mit Regierungsvertretern lehnen hingegen fast alle Generatoren angesichts der anstehenden US-Wahlen pauschal ab — selbst zahme, in denen sich Biden und Macron die Hand geben sollen. Nacktheit blockieren die meisten ebenfalls, Gewaltdarstellungen und politisch extreme Symbole jedoch nicht. Hier kommen die Wertvorstellungen der USA, Heimat von Dall-E und Midjourney, durch. Auch die Darstellung von Drogen blockieren viele. Der Bildgenerator von Getty Images verweigert sich selbst Markennamen wie Disney, Pixar, Nikon und Fujifilm, was das Prompting in ein Synonymspiel ausarten lässt.

„Joe Biden neben der Freiheitsstatue, Emmanuel Macron vor dem Eiffelturm und Olaf Scholz vor dem Brandenburger Tor geben sich die Hand“ (v. l. Dall-E, DreamStudio (Stable Diffusion), Adobe Firefly).

Die Trainingsdaten: rechtliches Neuland

Die Hersteller brauchen Milliarden von Bildersätzen nebst Beschreibungen zum Inhalt, um ihre Modelle zu trainieren. Viele stammen bisher meistens von irgendwoher aus dem Netz. Was als reines Forschungsprojekt Applaus bringt, wird zum Zündstoff, wenn Bildgeneratoren kommerziell eingesetzt werden.

Die Frage nach Urheber- und Nutzungsrechten ist ein bisher ungeklärter Streitpunkt. Stockfotograf und c’t-Autor Robert Kneschke klagt vor dem Hamburger Landgericht gegen den Betreiber von „Laion-5B“ (Large-scale AI Open Network). In der öffentlich einsehbaren Bilddatenbank, die 5,8 Milliarden Fotos nebst Beschreibungen und Quellenangaben enthält, fand Kneschke auch einige seiner Stockfotos, mit denen er seinen Lebensunterhalt verdient. Laion-5B dient dazu, Bildgeneratoren zu trainieren, unter anderem Stable Diffusion von Stability AI und Midjourney. Diese Unternehmen verdienen wiederum mit ihren Diensten Geld.

Vom Prompt zum Bild

Bildgeneratoren bestehen im Wesentlichen aus zwei Bestandteilen: einem Sprachmodell, das den Textprompt vorbereitet, und dem bildgenerativen Modell, das daraus Pixel erzeugt. Das Sprachmodell versucht zunächst, Weltwissen in Vektoren zu übersetzen, die der Bildgenerator verarbeiten kann. Konkret wandelt es jedes Wort des Textprompt in Tokens, in diesem Fall sind das vieldimensionale Vektoren. Dabei kombiniert es Phrasen wie „blaue Augen“, damit Attribute wie „blau“ an der richtigen Stelle ankommen und im Bild nicht die Augen braun, das Hemd aber blau ist. Der Tokenizer kann lediglich Wörter umsetzen, die in seinem Training vorkamen, der Bildgenerator wiederum nur eine begrenzte Zahl Tokens verarbeiten.

Diffusion-Modelle generieren Daten, die den Trainingsdaten ähneln. Das Ergebnis variiert vom Original, versucht ihm aber so nahe wie möglich zu kommen. Das Training läuft so ab, dass man einem Ausgangsbild schrittweise Rauschen hinzufügt. Dabei entsteht jeweils ein Datenpaar, auf das ein Denoising-Autoencoder trainiert wird. Im leicht angerauschten Bild stehen noch genügend Strukturen zur Verfügung, anhand derer er Vermutungen über weitere Details anstellt. Das Bild wird schrittweise weiter verrauscht und der Prozess jeweils wiederholt.

Beim Generieren kehrt das Modell den Prozess um und erzeugt aus völlig bedeutungslosem Rauschen ein detailreiches Bild, indem es das Bildrauschen vom Ausgangsbild abzieht. Dieser Prozess benötigt immens viel Rechenleistung: Für ein 512 × 512 Pixel großes Bild mit den drei Farbkanälen Rot, Grün und Blau kommen 786.432 Dimensionen zusammen. Stable Diffusion komprimiert den Pixelraum in einen latenten Raum, der nur ein 48-stel des gesamten ausmacht. Der dafür nötige variationale Autoencoder (VAE), ein neuronales Netzwerk, komprimiert oder kodiert Bilder in eine geringer dimensionierte Repräsentation und dekodiert sie auch wieder aus dem latenten Raum.

Die meisten Bildgeneratoren können aktuell Bilder in einer Auflösung von 1024 × 1024 Pixeln erzeugen. Adobe Firefly generiert gar 2048 × 2048 Pixel. Wird eine höhere Auflösung benötigt, um die Bilder beispielsweise großformatig ausdrucken zu können, skaliert sie eine vom Bildgenerator unabhängige Superresolution-KI.

Die US-amerikanische Bildagentur Getty Images verklagt Stability AI in Großbritannien sowie den USA und fordert die Zerstörung aller mit Getty-Bildern trainierten Modelle. Stable Diffusion soll mit 12 Millionen Bildern der Agentur trainiert worden zu sein. Den Beweis hat Stable Diffusion selbst erbracht: Die Software gab Bilder aus, auf denen das Wasserzeichen von Getty Images erkennbar war.

„Porträt einer Frau mit Haaren aus Schnittlauch“ (oben v. l. Dall-E, DeepAI, DreamStudio, unten Firefly, iStock, Midjourney).

Adobe hat sein KI-Modell Firefly hingegen nur mit Bildern aus Adobe Stock trainiert sowie mit Public-Domain-Inhalten und solchen, bei denen das Urheberrecht bereits erloschen ist. Ähnlich Getty Images: Nvidia trainierte ein Modell mit der Kreativbibliothek von Getty und iStock, die klassische Stockfotos wie den Business-Handshake und die lachende Salatesserin anbietet, also keine Pressefotos aus Politik, Kultur oder Sport.

Dall-E und Firefly sind in die Content Authenticity Initiative (CAI) eingebunden. Die CAI wurde ins Leben gerufen, um die Echtheit von Bildmaterial zu zertifizieren. Firefly schreibt sogenannte „Content Credentials“ in die Metadaten seiner Erzeugnisse, die sie als KI-generiert ausweisen. Die im Februar 2021 gegründete „Coalition for Content Provenance and Authenticity“ (C2PA) formuliert die technischen Standards der CAI unter der Creative Commons Lizenz CC BY 4.0. Über contentcredentials.org/verify lassen sich Bilder hochladen und auf ihre Urheberschaft überprüfen, auch wenn die Metadaten gelöscht wurden. Alle Bilder aus Dall-E und Firefly bescheinigt sie als KI-generiert.

„Drei Deutsche in Lederhosen trinken Bier aus Maßkrügen und rauchen Joints, vor ihnen ein Tisch mit Marihuana, im Hintergrund eine Deutschlandflagge“ (oben v. l. Dall-E, DeepAI, DreamStudio, unten Firefly, iStock, Midjourney).

So sieht es aus

Im Großen und Ganzen hat Midjourney hinsichtlich der Bildqualität die Nase vorn, generiert Bilder mit der höchsten Detailtiefe, der besten Beleuchtung, den wärmsten Farben und der besten Stimmung. Aber darauf kommt es nicht immer an. Dall-E interpretiert den Prompt genauer. Hier kommt OpenAI die Expertise von ChatGPT zugute, in das Dall-E 3 eingebunden ist. Unkomfortabel ist Midjourneys Einbindung in den Gamerchat von Discord. Dall-E lässt sich über ChatGPT nutzen sowie kostenlos über den Microsoft Copilot im Bing-Chat.

DreamStudio beziehungsweise Stable Diffusion unterlaufen immer noch Fehler bei der Anatomie, die Dall-E und Midjourney nicht mehr machen. Zudem muss sich Stability AI in mehreren Verfahren vor Gericht für seine Datenbasis verantworten. Nutzer sind hier aber freier bei der Gestaltung, weil der Anbieter weniger Begriffe im Prompt blockiert. Das kann man aber auch so sehen, dass er seiner Verantwortung nicht nachkommt, weder beim Filtern der Prompts, um Fake News vorzubeugen, noch bei der Datenbasis, die der KI zugrunde liegt.

Fazit

Midjourney, Dall-E, Stable Diffusion & Co. lernen in atemberaubenden Tempo dazu. Nicht nur machen sie weniger Fehler bei Anatomie, Anschlüssen und Details als zuvor – die kommen immer noch vor –, vor allem aber geben sie die Bildidee im Prompt immer präziser wieder. Was vor einem halben Jahr noch unmöglich war, der Roboter im Krankenbett mit einem Arzt stehend neben ihm, bekommen mittlerweile alle hin. Noch ist bei der Bildqualität Luft nach oben, es geht aber stetig voran.

Rechtsstreits zeigen, dass Urheber wie Stockfotografen nicht mehr hinnehmen, dass KI-Betreiber mit ihren Inhalten Geld verdienen. Beim Einsatz von Dall-E, Stable Diffusion und Midjourney ist Vorsicht geboten. Für sichere kommerzielle Nutzung bleiben Adobe Firefly und der iStock KI-Generator von Getty Images. Beide Hersteller nutzen nur ihre eigene gesicherte Datenbasis fürs Training und entlohnen Stockfotografen dafür. Adobe hat früher angefangen und ist entsprechend weiter: Firefly V2 liefert deutlich bessere Bildqualität, mehr Details und höhere Auflösung als iStock. Für Grafiker und Agenturen ist Adobe Firefly daher die erste Wahl. (akr@ct.de)

Craiyon

Ursprünglich hieß Craiyon (Crayon, englisch für Wachsmalstift, mit AI) Dall-E Mini, obwohl er mit dem Bildgenerator von OpenAI nichts gemein hatte. Unter anderem diese Dreistigkeit machte den Dienst bekannt, bevor Programmierer Boris Dayma ihn auf Druck von OpenAI umbenannte. Craiyon war einer der ersten Bildgeneratoren, finanziert sich über Bannerwerbung und ist ohne Anmeldung nutzbar. Die Webseite weist ihn als dritte Version aus. Er erzeugt Bilder mit einer nicht mehr zeitgemäßen Auflösung von 256 × 256 Pixeln, skaliert sie aber immerhin auf 1024 × 1024 Pixel.

Nach Aufruf der Webseite kann man sogleich einen Prompt eingeben. Ein zweites Feld für negative Prompts schließt unerwünschte Motive aus. Es dauert etwa 60 Sekunden, bis der Dienst eine Rückmeldung gibt. Danach präsentiert er neun Bilder in einem 3×3-Raster. Gegen Bezahlung arbeitet er schneller und entfernt das Wachsmalstiftsymbol in der unteren Ecke.

Die erzeugten Bilder wirken wie aus der Frühzeit der Bildgeneratoren vor zwei Jahren: Personen haben unregelmäßig viele Finger, Gesichter wirken oft wie Fratzen aus einem Horrorfilm. Viele Motive schweben im Raum, statt sich in die Szene zu integrieren. Bei längeren Prompts ignoriert die KI das meiste. Sie filtert keinerlei Inhalte, generiert aber eben auch keine überzeugenden Bilder.

Aufgrund der geringen Qualität empfiehlt sich Craiyon nur für einen niedrigschwelligen, anonymen und kostenlosen Einstieg ins Thema, nicht für mehr.

keine Einschränkung beim Prompt

geringe Auflösung und Qualität

Preis: kostenlos, ohne Hersteller-Logo ab 5 US-$ monatlich

Dall-E 3.0

Im Oktober 2023 veröffentlichte OpenAI seinen Bildgenerator Dall-E 3. Der Begriff verbindet den Namen des Pixar-Roboters Wall-E mit dem des spanischen Surrealisten Salvador Dalí. Die Vorversion kam noch mit einer hemdsärmelig zusammengestrickten Oberfläche. Dall-E 3 klinkt sich in ChatGPT ein, allerdings nur ins Modell GPT 4.0. Wer kein ChatGPT-Abo hat, kann Dall-E 3 im Webbrowser Microsoft Edge über Copilot kostenlos nutzen.

Prompts formuliert man im Plauderton statt über Konsolenbefehle (Midjourney) oder Eingabefelder (Stable Diffusion). Im Dialog mit der KI lässt sich die Idee weiter verfeinern. Da OpenAI sein Sprachmodell als Einstiegsplattform für seine KI-Dienste nutzt, muss man seinem Prompt aber eine Phrase wie „Zeige mir ein Bild“ oder schlicht „Imagine“ vorausschicken. Es prüft Nutzereingaben aber „auf schädliche und nicht jugendfreie Inhalte“, lehnt Anfragen ab, die den Stil lebender Künstler kopieren und zeigt sich oft beratungsresistent, wenn es Fehler macht. Ein Motiv mit dem US-Präsidenten Biden verweigerte Dall-E, erzeugte jedoch immerhin ein Ersatzmotiv ohne Würdenträger. Nach einem Klick kann man Bildbereiche markieren und mit neuem Inhalt füllen. Die KI weist die von ihr generierten Bilder als solche in den Metadaten nach C2PA-Standard aus. Über deren Verify-Seite sind sie auffindbar.

Dall-E 3 generiert detailreiche, meistens fehlerfreie Bilder, die von Fotos kaum zu unterscheiden sind, und interpretiert auch komplexe Eingaben präzise. Version 3 liefert exzellente Bildqualität, filtert aber recht restriktiv.

hohe Bildqualität

strenger Textfilter

Preis: kostenlos über Bing Copilot,, 23,80 US-$ monatlich über ChatGPT

DeepAI

DeepAI stellt neben einem Bildgenerator auch andere hilfreiche KI-Werkzeuge wie ein Large Language Model (LLM) zur Verfügung, das Code in verschiedenen Programmiersprachen erstellt oder zum Chat mit historischen Persönlichkeiten wie Johann Sebastian Bach oder Ada Lovelace einlädt. Eine KI-Bildbearbeitung verändert hochgeladen Bilder aufgrund eines Prompts. Damit präsentiert sich DeepAI als vielseitig, reicht aber im Einzelnen nicht an die Qualität von ChatGPT oder Midjourney heran.

Der KI-Bildgenerator verspricht einen ähnlich niedrigschwelligen Einstieg wie Craiyon: Nutzer benötigen kein Konto und kein Abo, sondern können ihn zunächst kostenlos ausprobieren. Die Webseite zeigt dabei recht viel Banner-Werbung. In der kostenlosen Version hat man Zugriff auf 12 Kunststile, für 5 US-Dollar monatlich auf alle 26 – für bis zu 500 KI-Bilder pro Monat. Die KI arbeitet recht zügig, bietet aber im Vergleich mit anderen Testkandidaten wenige Funktionen: kein Erweitern der Arbeitsfläche, Bearbeiten von Bildvorschlägen oder Referenzieren von Bildern und Stilen.

DeepAI filtert weniger streng als Dall-E, Firefly, iStock oder Midjourney. Motive des amtierenden Präsidenten lehnt die KI wie die meisten Anbieter ab, nicht aber etwa solche mit den Beatles. Auch das Bierzeltmotiv mit Marihuana rauchenden Bajuwaren erzeugte er. Es hapert jedoch an Details: DeepAI generiert nicht einmal halbwegs glaubhafte Anatomie, ganz zu schweigen von lesbaren Schriftzügen. Die Bilder sind wenig detailreich und entlarven sich allzu schnell selbst als KI-Kreationen.

KI-Chat und -Bildgenerator

Mängel bei Anatomie und Schrift

Preis: kostenlos mit Einschränkungen, sonst ab 4,99 US-Dollar monatlich

DreamStudio (Stable Diffusion)

Hinter DreamStudio steckt die generative KI Stable Diffusion des britischen Entwicklers Stability AI. Der Hersteller hat die Software unter „Creative ML OpenRAIL-M“ als Open-Source-Modell lizenziert. So steckt sie auch im anderer Software, beispielsweise den Webdiensten von KI-Bild-erstellen.de und NightCafe Creator oder der Bildbearbeitung Skylum Luminar. Außerdem kann man sie lokal installieren, genügend Grafikspeicher vorausgesetzt.

Die komfortabelste Variante bleibt, den Webdienst DreamStudio zu nutzen. Bis vor Kurzem stellte er in Beta verschiedene Stable-Diffusion-Modelle zur Wahl. Jetzt bietet er nur noch das neueste SDXL 1.0 an, eine Weiterentwicklung der Vorgänger Stable Diffusion 1.5 und 1.6. Neben dem Promptfeld kann man eines für negative Prompts nutzen.

Hinsichtlich der Inhalte ist Stable Diffusion freizügiger als Midjourney oder Dall-E. Die KI erzeugt Bilder von Prominenten sowie Bilder mit Gewaltdarstellungen. Zwar unterlaufen Stable Diffusion immer noch Fehler, wie ungesund abgeknickte Gelenke oder frei schwebende Gliedmaßen, im Großen und Ganzen zeichnet es aber fotorealistische Landschaften und Porträts. Der Stil ist, so weit nicht anders angegeben, clean und fotografisch.

Stable Diffusion XL hat gegenüber seinen Vorgängern mächtig hinzugelernt. Aufgrund des Trainingsmaterials muss sich der Anbieter, wie einleitend beschrieben, mehrfach vor Gericht verantworten. Das schließt eine kommerzielle Nutzung vorerst aus.

lokal installierbar

ungeklärte Rechtslage

Preis: 10 US-$ (1000 Credits), kein Abo

Adobe Firefly

Firefly umfasst als Regenschirmmarke KI-Dienste für Bildgenerierung, Texteffekte und zum Umfärben von Vektorgrafiken. Der Bildgenerator steht nicht nur als Webdienst zur Verfügung. In Photoshop und Adobe Express kann er auch Fotos über deren Rand erweitern und Motivteile einmontieren [1]. Jede Anwendung kostet einen Credit. Monatlich stehen Creative-Cloud-Kunden 1000 Credits zur Verfügung (Einzel-Abo 500, Foto-Abo 250).

Der Bildgenerator erstellt nach Prompteingabe vier Varianten. Seit Oktober 2023 erzeugt er Bilder mit 2048 Pixeln Kantenlänge – höher aufgelöst als bei jedem anderen Modell. Statt generische Stilvorgaben anzuklicken, kann man unter „Generative Match“ eigene Referenzbilder für den Bildstil und neuerdings auch für die Bildgestaltung beziehungsweise -geometrie hochladen. Firefly passt die Ausgabe daran an. In einer Palette für Fotoeinstellungen lassen sich Tiefenschärfe, Bewegungsunschärfe und Brennweite vorgeben. Kein anderer KI-Dienst bietet derart viele grafische Steuermöglichkeiten.

Qualitativ hält Firefly mit Midjourney & Co. nicht ganz mit. Die Bilder sind zwar weitgehend fehlerfrei, aber nicht alle Motive gelingen. So kann er mit den Begriffen Eiffelturm und Freiheitsstatue nichts anfangen. Angenehmerweise erzeugt Firefly Alternativen ohne das fragwürdige Motiv, statt den Prompt anzumeckern. Ein wichtiges Detail: Adobe hat seinen Bildgenerator mit Bildern aus seinem Agenturdienst Adobe Stock trainiert und damit ausschließlich mit Bildern, deren Urheberrechtslage geklärt ist. Somit sind sie sicher für kommerzielle Nutzung.

sicher für kommerzielle Nutzung
hohe Auflösung

Preis: ab 5,49 Euro monatlich, in Creative-Cloud-Abo enthalten

iStock KI-Generator

Nvidia hat für die Bildagentur Getty Images, zu der auch die Marke iStock gehört, eine generative KI entwickelt und mit 180 Millionen Fotos der sogenannten Kreativ-Bibliothek des Anbieters trainiert. Sie enthält klassische Stockmedien wie lachende Fauen mit Salatgabel oder Schlipsträger beim Meeting. Jeder Auftrag kostet einen Credit. Da die Pressefotos der Editorial-Bibliothek nicht enthalten sind, generiert das Tool etwa keine Bilder von Trump im Gefängnis. Der Dienst filtert sehr stark, sodass ihm auch abseits von Politik, Promis, Gewalt und Nacktheit immer mal ein Wort nicht passt, darunter Eigennamen wie Disney oder Nikon, selbst wenn diese nur den Stil beschreiben sollen.

Als einziger Dienst haftet Getty Images für die Urheberschaft der generierten Bilder. Adobe bietet Haftungsfreistellung nur optional für Unternehmenskunden. Anders als bei Dall-E, Stable Diffusion und Midjourney ist die Bildquelle hier bekannt. Da die Kreativ-Bibliothek deutlich weniger Material zum Training der KI bietet als anderen Anbietern zur Verfügung steht, leidet darunter die Bildqualität, wie es anfangs auch bei Adobe war. Firefly lernte dazu, Getty ist spät gestartet. und hat noch einiges nachzuholen

Bei Porträts geht der Dienst entweder auf Nummer sicher und zeigt nur Ausschnitte oder leistet sich Schwächen bei den Extremitäten: Hände, Arme und Beine passen nicht zum Rest. Details wirken wie mit dem Pinsel verrührt oder schlicht unpassend. Bei der deutschen Bierzeltszene stecken Männer in Dirndln. Mit einem Pinselwerkzeug kann man Bereiche markieren und per Prompt mit weiteren Details füllen.

sicher für kommerzielle Nutzung

Schwächen bei Details und Schrift

Preis: 13,99 Euro monatlich (100 Credits)

Midjourney

Nutzer von Midjourney müssen sich derzeit noch mit dem Instant-Messaging-Dienst für Gamer Discord abgeben, für einen KI-Bildgenerator eine denkbar ungeeignete Plattform. Nach Abschluss eines Midjourney-Abos und Erstellen eines Discord-Kontos wählt man einen Community-Kanal aus. Die tragen Namen wie „#Newbie-78“ und sind bereits voll mit Nutzern wie Mehrbettzimmer einer ausgebuchten Jugendherberge. Eine Web-Oberfläche in Betaversion ist bisher nur für Poweruser verfügbar. Alle Nutzer sehen alle Kreationen, wenn man nicht viel Geld für einen Stealth-Modus zahlt.

Prompts beginnen mit dem Kommandozeilenbefehl „/imagine“. Modifikatoren bestimmen unter anderem Seitenverhältnis, Stil, Qualität, Ausschluss und die Variationsbreite der Ausgabebilder. Sind die Bilder berechnet, tauchen sie im Feed auf. Midjourney gibt jeweils vier Bilder aus. Mit den Befehlen U1 bis U4 und V1 bis V4 lässt sich das Ergebnis weiterverarbeiten: U bedeutet „Upscale“ also eine der vier Varianten in höherer Auflösung, V steht für „Variation“ und führt zu vier neuen Bildern auf Basis des gewählten. Weitere Schaltflächen skalieren oder modifizieren einen rechteckigen, markierten Bereich.

Midjourney generiert beeindruckend realistisch wirkende Bilder. Abgesehen von Schrift, mit der die meisten Dienste Probleme haben, sind Midjourney-Bilder von Fotos kaum noch zu unterscheiden. Sie faszinieren durch viele Details, stimmungsvolles Spiel mit dem Licht und einen lebendigen Stil, der je nach Prompt ins Gemäldeartige oder ins Fotografische spielt.

detailreiche, stimmungsvolle Bilder

komplizierte Bedienung

Preis: ab 11,90 US-$ monatlich (3,3 GPU-Stunden)

KI-Bildgeneratoren
Produkt	Craiyon V3	DALL·E 3	DeepAI	DreamStudio (SDXL)	Firefly V2	iStock KI-Generator	Midjourney V6
Hersteller, URL	Crayion, craiyon.com	Open.ai, openai.com/dall-e-3	DeepAI, deepai.com	Stability AI, dreamstudio.ai	Adobe, firefly.adobe.com	Getty Images, istockphoto.com	Midjourney, midjourney.com
Systemanf.	Webbrowser	Webbrowser	Webbrowser	Webbrowser	Webbrowser	Webbrowser	Webbrowser
Sprachen	Englisch, Deutsch	Englisch, Deutsch	Englisch, Deutsch	Englisch, Deutsch	Englisch, Deutsch	Englisch, Deutsch	Englisch, Deutsch
Allgemeines
Engine	Eigenentwicklung	DALL-E 3	Eigenentwicklung	SDXL 1.0 (Stable Diffusion)	Adobe Firefly	Nvidia Picasso	Midjourney Model 6
Dauer (bei Standardeinstellung)	55 s (kostenlose Version, schneller im Abo)	20 s	19 s	20 s	13 s	15 s	41 s
Online-Community	–	–	–	–	Adobe Behance	–	via Discord
Quellennachweis der Trainingsdaten	–	–	–	–	Inhalte von Adobe Stock	Inhalte der Kreativ-Bibliothek von Getty/iStock	–
CAI-Urhebernachweis (generiertes Bild)	–	✓	–	–	✓	–	–
Haftungsfreistellung für kommerzielle Nutzung	–	–	–	–	optional für Unternehmen	bis 10.000 US-$ pro Bild	–
Ausgabe
Ausgabeformat / Auflösung	PNG / 256 × 256 Pixel	WebP / 1024 × 1024 Pixel	JPEG / 1024 × 1024 Pixel	PNG / 1024 × 1024 Pixel	PNG / 2048 × 2048 Pixel	JPEG / 1024 × 1024 Pixel	PNG / 1024 × 1024 Pixel
Anzahl der Ausgabebilder	9	1	1	1 bis 10 (Standard 4)	4 im Web, 3 in Photoshop	4	4
Variationen erzeugen	–	✓ (via ChatGPT)	–	✓ (4)	✓ (auch Stilreferenz)	✓ (4)	✓ (4)
Bilder online speichern	✓ (nicht öffentlich)	–	✓	✓ (die letzten 100)	✓	✓	✓
Finetuning
Stilvorgaben	Art, Photo, Drawing, keine	✓ (über Prompt)	Fantasy, Cyberpunk, Anime, Renaissance-Gemälde, Origami, Pixel Art u.a.	Anime, fotografisch, Comic, Fantasy, Neon-Punk, isometrisch, Origami, Pixel Art u.a.	Art Déco, Film noir, Cyberpunk, Acrylfarbe, Schichtpapier, Synthwave, Barock, Bauhaus u.v.a.	Foto, Grafik, Farben und Stimmung	✓ (über Prompt, Web-Oberfläche in Vorbereitung)
Seitenverhältnis einstellen	– (stets 1:1)	✓ (über Prompt)	21:9, 16:9, 1:1, 9:16, 9:21	21:9, 16:9, 3:2, 5:4, 1:1, 4:5, 2:3, 9:16, 9:21	4:3, 3:4, 1:1, 16:9	16:9, 5:4, 1:1, 4:5, 9:16	✓ (--aspect oder --ar, beliebige Ziffern)
negative Prompts	✓	✓ (über Prompt)	–	✓	–	✓	✓ (--no)
Hilfe für Prompts	✓ (Promptvorschläge)	✓ (via ChatGPT/Copilot)	✓ (wiss. Paper als PDF)	✓ (Beispiel-Prompts)	✓ (validiert Prompts)	✓ (Prompt-Builder)	✓ (Dokumentation)
Bilddateien als Vorlage	–	✓	–	✓	✓ (Form- und Stilvorlage)	–	✓ (über Prompt)
Leinwand vergrößern (Zoom out)	–	–	–	✓ (via Skylum Luminar)	✓ (via Photoshop)	✓	✓ (über Prompt)
Motive in Fotos kopieren	–	✓ (Bildbereich markieren)	–	✓ (via Skylum Luminar)	✓ (via Photoshop)	✓ (Bildbereich markieren)	✓ (Rechteckauswahl)
Auflösung erhöhen	✓ (bis 1024 × 1024 Pixel)	–	✓ (bis 3200 × 3200 Pixel)	✓ (bis 1024 × 1024 Pixel)	–	✓ (bis 4096 × 4096 Pixel)	✓ (bis 2048 × 2048 Pixel)
Regler für Vorlagentreue	–	–	–	✓	✓ (visuelle Intensität)	–	–
Weitere Werkzeuge	Hintergrund entfernen	Radierer, Rahmeneditor	Hintergrund entfernen	API Key, Prompt Guide	Brennweite, Belichtung, Blende, Hintergrund entfernen, Text hinzufügen	Bildmotive retuschieren	Prompt aus Bild, Bilder mischen
darstellbare Inhalte
Prominente / politische Symbole	✓ / ✓	– / – (gefiltert)	– (gefiltert) / ✓	✓ / ✓	– / – (unverfänglich ersetzt)	– / – (gefiltert)	– (gefiltert, Sperrung) / ✓
Nacktheit / Gewalt	✓ / ✓	– / – (gefiltert)	– / – (gefiltert)	– / – (gefiltert)	– / – (gefiltert)	– / – (gefiltert)	– (gefiltert, Sperrung) / ✓
Drogen	✓	– (gefiltert)	✓	✓	– (gefiltert)	– (gefiltert)	✓
Schrift	–	✓	– (bedingt)	✓	– (bedingt)	–	– (sehr bedingt)
Zugang und Modell
kostenloses Angebot	✓ (mit Craiyon-Logo)	✓ (über Bing Copilot)	✓	✓ (200 Credits)	✓ (25 Credits pro Monat)	–	–
Log-in	E-Mail-Adresse, Google (nicht erforderlich)	E-Mail-Adresse	Google, GitHub	Discord, Google	Adobe-ID	iStock-Konto	Discord-Konto
Werbung im Web	✓	–	✓	–	–	–	–
Bewertung
Bedienung / Funktionsumfang	/	/	/	/	/	/	/
Abo und Preis / Geschwindigkeit	/	/	/	/	/	/	/
Detailtiefe / Umsetzung des Prompt	/	/	/	/	/	/	/
Schrift / Anatomie	/	/	/	/	/	/	/
Preis	kostenlos, 5 US-$ pro Monat	kostenlos (Bing Copilot), 23,80 US-$ (ChatGPT)	kostenlos, 4,99 US-$ pro Monat (500 Credits)	10 US-$ (1000 Credits)	kostenlos, ab 5,49 € pro Monat (100 Credits)	13,99 € (100 Credits)	11,90 US-$ pro Monat (3,3 h GPU-Zeit)
sehr gut gut zufriedenstellend schlecht sehr schlecht ✓ vorhanden – nicht vorhanden k.A. keine Angabe