Dall-E-2 & Co: Bild-Generatoren im Test

KI-Bildgeneratoren leisten faszinierende Arbeit, aber wie sinnvoll kann man sie bereits einsetzen? c't 3003 hat Dall-E 2, Midjourney, Craiyon & Co getestet.

37

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

YouTube-Video immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

15.08.2022, 19:22 Uhr

Lesezeit: 12 Min.

c't Magazin

Von

Jan-Keno Janssen

In ganz normaler Sprache eingeben, was man sehen will: Und schon berechnen Bildgenerierungs-Systeme wie Dall-E 2 daraus fotorealistische Bilder – also zumindest oft. Manchmal verunglückt das Ergebnis auch und hat mit Fotorealismus nicht mehr viel zu tun. c't 3003 hat sich vier dieser Systeme genauer angeschaut: Dall-E 2, Midjourney, Craiyon (ehemals Dall-E Mini) und das lokal lauffähige Disco Diffusion.

Transkript des Videos:

(Hinweis: Es handelt sich hier um einen Bonusinhalt für Menschen, die das Video oben nicht schauen können oder wollen. Die Informationen auf der Bildspur gibt das Transkript nicht wieder.)

Kuckt euch das mal bitte hier an: Sieht gut aus, oder? Tjaha, aber das Krasse ist: Alle diese Bilder hat eine KI generiert. Ich teste in diesem Video vier solcher Bilder-KIs: Dall-E 2, Midjourney, Craiyon und für die Frickler unter euch Disco-Diffusion. Außerdem erklärt euch Pina, wie das Ganze funktioniert. Aber sagt nachher nicht, ich hätte euch nicht gewarnt. Das was jetzt kommt, macht süchtig!

Liebe Hackerinnen, liebe Internetsurfer, herzlich Willkommen bei c’t 3003!

Ich bin echt gerade ein bisschen verliebt in eine künstliche Intelligenz. Also, jetzt nicht so wie ihr denkt, diese völlig generischen, nach Roboter aussehenden KI-Figuren. Sondern echt mit einer funktionierenden KI, mit der man selber interagieren kann. Die KI heißt Midjourney und wurde von einer Forschergruppe rund um David Holz entwickelt. Das ist der, der diese Leap-Motion-Fingersensoren erfunden hatte. Die haben meiner Meinung nach nie so richtig gut funktioniert, Midjourney jetzt ist aber echt der HAMMER!

Mit Midjourney lassen sich Bilder generieren. Das ist jetzt nichts komplett Neues. Craiyon – beziehungsweise "Dall E mini", wie das vorher hieß, kann man schon länger völlig frei im Browser ausprobieren, aber die Bilder, die da rauskommen, sehen irgendwie auch echt ganz schön generiert aus. Und ein bisschen gruselig. Schaut mal, wenn ich zum Beispiel "A robot looking at the moon" bei Craiyon eingebe, dann kommt das hier raus:

Ich meine, ja, da ist ein Mond und irgendein Roboter, aber so richtig... Ich weiß nicht. Überzeugt mich nicht.

Oder hier. Eine Blume im Stil von van Gogh. Da ist schon irgendwie Ähnlichkeit, aber mich haut es nicht um.

Schauen wir uns mal an, was Midjourney aus denselben Befehlen macht! Erst mal wieder die Künstliche Intelligenz, die auf den Mond schaut. Das ist dabei rausgekommen. Ist ne andere Nummer, oder?

Bei Dall-E 2 sieht das so aus. Auch cool, und ganz anders als Midjourney.

Bei der Blume von van Gogh macht Midjourned das hier und Dall E 2 das hier. Also – wenn diese Abbildungen in einem van Gogh-Bildband wären – ich glaube nicht, dass ich da drüber gestolpert wäre.

Die Beispiele waren jetzt recht künstlerisch, es geht aber auch ganz anders. Schaut mal hier:

Das macht Midjourney, wenn man um ein Bild von einem 3D-gerenderten PacMan bittet. Ich weiß nicht, ob PacMan mit dieser Abbildung so zufrieden wäre, aber das sieht schon sehr nach solchen typischen 3D Renderings aus. Das kommt bei Dall-E raus. Auch nice!

Oder hier – ein Bild von einem Anwalt vor großen Buchstaben. Wenn man genau hinschaut, sieht der Anwalt irgendwie komisch aus, aber hey, künstlerische Freiheit, würde ich sagen. Das ist jetzt Midjourney, das macht Dall-E 2 aus demselben Befehl. So grundsätzlich hat Dall-E oft einen Hang zum Fotorealistischen, während Midjourney künstlerischer aussieht.

Und hier eins von einer verregneten Stadt bei Nacht, generiert von Midjourney. Dass das kein Foto ist, ist klar. Aber hättet ihr erkannt, dass das Bild generiert ist und nicht von Hand gezeichnet oder mit einem 3D Programm wie Blender gerendert?

Wenn euch das jetzt alles kaltlässt: So ging mir das auch am Anfang. Ich hab in den letzten Wochen in den sozialen Netzwerken immer wieder mal mit Text zu Bild-Generatoren erstellte Bilder gesehen und fand die ganz hübsch, aber nur so mittel spannend. Ist halt eine Illustration, sieht man jeden Tag. Aber ich kann euch sagen: Das ist was GANZ anderes, wenn man die selber erstellt. Das kommt einem dann so vor, als könnte man plötzlich seine Gedanken oder seine Träume ausdrucken, und – ja, ich finde, das macht echt ein Stück weit süchtig. Bevor ich euch jetzt aber zeige, wo und wie ihr damit selber rumspielen könnt, fragen wir mal bei Pina nach, wie das Ganze eigentlich funktioniert.

[Interview mit Pina Merkert]

Gut, das erklärt dann vielleicht auch, warum ich davon so fasziniert bin und mich jedes Bild wieder neu überrascht. Jetzt aber genug der Vorrede! So könnt ihr selber Bilder generieren: Am einfachsten ist das bei Craiyon bzw Dall-E mini. Das läuft einfach im Browser, den Link findet ihr in der Videobeschreibung, Account braucht ihr keinen.

Da gebt ihr dann ein, was die KI generieren soll, das dauert dann etwa eine Minute und dann seht ihr direkt neun Ergebnisse. Wir nennen diese Text-Beschreibung hier auch mal denglish "Prompt" – dieser Prompt muss immer in Englisch eingegeben werden, deutschsprachige Bildgeneratoren haben wir bislang nicht gefunden. Wichtig ist dabei, dass der Prompt nicht nur das enthalten kann, was auf dem Bild zu sehen sein soll, sondern auch in welchem Stil. Sehr populär ist "digital art", dann sieht das so aus. Oder "photorealistic", aber das klappt oft noch nicht so gut. Es geht auch superkonkret, wie "studio lightning in the style of terry richardson" oder "science-fiction book cover". Man kann da viel experimentieren, und das ist es auch, was eben so süchtig macht.

Für den persönlichen Gebrauch ist das kostenlos, man dürfte sich das also beispielsweise auf ein T-Shirt drucken. Allerdings ist die Auflösung mit 740x740 Pixeln dazu eigentlich zu niedrig und die Bilder sind auch recht unscharf.

Der Dall-E Mini alias Crayion-Sourcecode liegt übrigens auf Github, federführend bei dem Projekt ist Boris Dayma. Die Macher des "echten" Dall-E haben sich allerdings inzwischen über den Namen beschwert und deshalb soll Dall-E-Mini künftig eben Craiyon heißen, weil Dall-E Mini keine abgespeckte Version von Dall-E ist, sondern ein ganz eigenständiges Projekt.

Ja, und damit kommen wir zu Dall-E, bzw Dall-E 2. Dahinter steckt OpenAI, das sind die, die auch schon den sehr leistungsstarken Textgenerator GPT-3 entwickelt haben und einer der Gründer ist: Elon Musk. (Der kommt ja echt hier in jedem zweiten Video vor, meh!) Dall-E läuft ebenfalls im Browser und ist im Moment in Version 2 in der Beta, und nur auf Einladung zu bekommen. Auf einen Invite muss man recht lange warten. Wir haben uns zum Beispiel schon Anfang April auf die Warteliste setzen lassen, und immer noch keinen Zugang. Wir wissen von anderen Leuten, die sich nicht als Journalist zu erkennen gegeben haben, dass das Ganze schneller ging – aber das kann auch Zufall gewesen sein.

Wenn man einen Zugang bekommen hat, kann man Dall-E-2 ebenfalls kostenlos ausprobieren und bekommt 15 Credits pro Monat geschenkt, eine Bildgenerierung kostet jeweils einen Credit. Wenn man mehr machen will, muss man Credits kaufen. 115 Credits kosten 15 US-Dollar, also umgerechnet 13 US-Cents pro Generierung. Dafür gibts vier Bilder zur Auswahl und man darf sie kommerziell nutzen. Bei Dall-E-2 sind die Bilder 1024 x 1024 Pixel groß.

Midjourney bietet da mehr, nämlich 1664 x 1664 Pixel. Midjourney ist im Moment ebenfalls noch in der Beta, man kann sich aber jederzeit registrieren und sofort loslegen. Midjourney funktioniert als Bot innerhalb von Discord, das kann am Anfang ein bisschen verwirrend sein. Wenn ihr einen Discord-Account habt, klickt ihr auf midjourney.com auf "Sign in with Discord". Dann öffnet sich in Discord ein Chat mit Midjourney. Da müsst ihr die Einladung auf den Midjourney-Discord-Server annehmen und dann klickt ihr auf einen der Newbie-Räume und könnt mit /imagine direkt anfangen, Bilder zu generieren. Da in den Newbie-Räumen aber ALLE Newbies drin sind und Bilder generieren, wird das schnell unübersichtlich. Dafür ist der Newbie-Bereich aber kostenlos. Wenn man ein Abo abschließt, kriegt man seinen eigenen Bot, da tauchen dann nur die eigenen Bilder auf. 200 Bilder gibts für 10 Dollar im Monat, unbegrenzt viele für 30 Dollar.

Aber Vorsicht: Auch was ihr beim persönlichen Bot generiert, ist öffentlich und taucht im Community Feed auf. Anzügliches kann man aber eh nicht generieren, das blockieren alle diese Dienste. Ein Blick in den Community-Feed lohnt sich übrigens. Da kann man sehen, was andere so generiert haben, und vor allem sieht man auch, welchen Befehle sie dazu benutzt haben. Um mit so einer KI coole Bilder zu generieren, muss man nämlich durchaus ein bisschen üben und eine Anregung kann da nicht schaden. Hier ist der Befehl z. B. "the cutest fox in the multiverse" – gut getroffen, würde ich sagen.

Joar, und wenn ihr Bock auf Basteln habt, dann gibt es auch noch Disco Diffusion, da erklärt Pina mal eben selber, wie das geht:

[Pina erklärt Disco Diffusion]

Welcher Generator kann jetzt was am besten? Dieser Vergleich hier zeigt noch mal schön auf einen Blick die Charakteristiken der vier Modelle.

Ganz klar: Craiyon bzw. Dall-E-Mini sieht grundsätzlich schlechter aus, als die anderen Kandidaten – das ist immer alles vermatscht und leicht gruselig, was ja auch schon wieder einen eigenen Charme hat. Ich würde mir aber zutrauen, Dall-E-Mini-bzw. Craiyon-Bilder sofort zu erkennen. Bei den anderen klappt das definitiv nicht so leicht. Dall-E 2 hat Vorteile beim Fotorealismus – schaut mal das hier – Midjourney macht dafür "künstlerischere" Bilder und ist höher aufgelöst. Disco-Diffusion ist bei Landschaften schon ganz gut dabei, Gesichter sind aber nicht so nice. Mein persönlicher Favorit ist auf alle Fälle Midjourney, einfach weil ich dieses künstlerische total mag – aber vielleicht seht ihr das komplett anders, das ist ja wirklich stark Geschmacksabhängig.

Jetzt kann man das ganze als lustige Spielerei abtun. Glaube ich aber nicht. Ich denke: Das wird die Gebrauchsgrafik- und Illustrations-Branche umkrempeln und sicher an manchen Stellen ersetzen. Ey, allein wie viel Zeit wir für Thumbnails aufwenden – machen wir das zukünftig nur noch mit einem KI-Prompt? Die renommierte Zeitschrift The Economist hat auf alle Fälle schon ein Cover von Midjourney generieren lassen. Dass das eine Maschine gestaltet hat und kein Mensch; wäre sicherlich niemandem aufgefallen, wenn der Economist das nicht offen kommuniziert hätte. Und selbst wenn man nicht direkt die von der KI generierten Bilder nutzt, kann man die hervorragend als Grundlage oder Inspiration für eigene Zeichnungen, Bilder, Illustrationen und so weiter nutzen.

Egal welchen der Generatoren ihr ausprobiert, ich wünsche euch super viel Spaß dabei! Und ich bin echt gespannt, was ihr für Bilder erstellt, vielleicht schickt ihr mir euren Liebling ja per Mail oder verlinkt mich auf Insta. So, ich gehe jetzt wieder Träume ausdrucken. Tschüss!

c't 3003 ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t magazin. Redakteur Jan-Keno Janssen und die Video-Producer Johannes Börnsen und Şahin Erengil veröffentlichen jede Woche ein Video.

(jkj)