Täuschend echte Porträts: Fortschritte bei KI-Bildgeneratoren

Bei den KI-Bildgeneratoren tut sich viel, von Midjourney 5 über die neue Dall-E-2-Version in Bing Chat und Stable Diffusion XL zu Adobe Firefly. Ein Überblick.

In Pocket speichern vorlesen Druckansicht 6 Kommentare lesen
Künstler bei der Arbeit

(Bild: wavebreakmedia / Shutterstock.com)

Lesezeit: 7 Min.
Inhaltsverzeichnis

So schnell wie kaum eine Softwarekategorie zuvor entwickeln die Hersteller von künstlicher Intelligenz ihre KI-Bildgeneratoren weiter. Vor allem Midjourney und Dall-E 2 beweisen, wie schwer es mittlerweile fällt, ein computergeneriertes Porträt von einem tatsächlich fotografierten zu unterscheiden. Nur noch im Detail, am unsauberen Fensterrahmen oder unnatürlicher Handhaltung, kann man Fake von Fakt unterscheiden. Bald wird die Grenze völlig verwischen. Für die Foto- und Werbebranche bedeutet das zwar nicht zwangsläufig, dass Jobs verschwinden, sie werden sich aber verändern, vermutlich ebenso radikal wie in den Neunzigern, die gelernte Schriftsetzer vor den Bildschirm zwangen. Und das Publikum muss noch genauer hinschauen, um eine Bildfälschung zu erkennen.

KI-Bildgeneratoren schießen wie Pilze aus dem Boden, beispielsweise der "text to image"-Generator in der Web-App Canva oder "Generate" vom Bildagenturdienst Shutterstock. Ende März erschien die Beta von Adobe Firefly, ein KI-Bildgenerator, der eng mit Adobe Stock verbandelt und mit dessen Material trainiert ist.

Aber auch die "Klassiker" machen von sich reden: Am 17. März veröffentlichte Midjourney Version 5 seines gleichnamigen Bildgenerators, laut Hersteller mit 5 Milliarden Parametern trainiert. Mit dem Update reagiert der Dienst präziser auf Textvorgaben (Prompts), verlangt damit aber auch nach ausführlicheren Eingaben. Die stilistische Bandbreite wächst: Bisher verstand sich Midjourney vor allem auf digitale Gemälde, nun erzeugt der Dienst auch fotorealistische Bilder. Vor allem kann er jetzt die menschliche Anatomie überzeugend wiedergeben.

Sofort haben Nutzer damit für Schlagzeilen gesorgt. Das Midjourney-Porträt des Papstes im blütenweißen Daunenmantel von Balenciaga, wie Rapper ihn gerne tragen, veranlasste den Hersteller zu einer Reaktion. Bisher konnte man mit Midjourney 25 Bilder kostenlos generieren. Die Testversion gibt es nun nicht mehr. Zu viele Menschen hätten sich teils mehrere Konten angelegt, um Geld zu sparen. Midjourney arbeitet außerdem nach eigenen Angaben an Richtlinien für einen verantwortungsvollen Umgang mit der KI. Es gibt bereits eine Liste mit gesperrten Wörtern bei Midjourney, um beispielsweise pornografische Inhalte zu unterdrücken.

Der Papst im blütenweißen Daunenmantel: Das mit Midjourney entstandene KI-Porträt sorgte für Schlagzeilen. Es wirkt erstaunlich realistisch. Nur die Hände und die Brille verraten, dass es sich hier um ein KI-generiertes Bild handelt.

(Bild: Midjourney)

Bereits im Dezember 2022 ging Stable Diffusion 2.1 online. Anfang April veröffentlichte der Entwickler das experimentelle Modell SDXL Beta. Neben den Versionen 1.5, 1.6, 2.0 und 2.1 steht es im entwicklereigenen Dienst DreamStudio zur Verfügung. Es soll an mehr als doppelt so vielen Parametern trainiert worden sein – insgesamt 2.1 Milliarden. Stable Diffusion 2 unterstützt extreme Seitenverhältnisse wie Panoramen und negative Prompts. Sie schließen aus, was das Bild auf keinen Fall zeigen soll. Die zunächst befremdlichen Eingaben wie "disfigured" und "too many fingers" helfen, Bilder mit fehlerhafter Anatomie zu vermeiden, beispielsweise Hände mit sechs Fingern. Positive und negative Prompts lassen sich außerdem mit Angaben wie 1,0 oder -0,3 gewichten.

OpenAI hat ein experimentelles Update für Dall-E 2 veröffentlicht, das in den Bildgenerator einfließen soll. Auf openai.com arbeitet aber noch die alte Version. Microsoft Bing Chat greift seit 21. März direkt auf Dall-E 2 zu, um Bilder zu erzeugen. Das funktioniert nur im kreativen Modus und ausschließlich mit englischen Textprompts. Bing Chat arbeitet mit der neuesten Version von Dall-E 2. Nach wie vor zeigt der Dienst keine prominenten Gesichter; er soll an 3,5 Milliarden Parametern trainiert sein.

Jeweils vier Bildbeispiele für KI-generierte Porträts von oben nach unten: Midjourney 5, Dall-E 2 (via Bing Chat), Stable Diffusion XL (Beta), Adobe Firefly (Beta). Die Bilder von Midjourney und Dall-E sind kaum noch von echten Porträts zu unterscheiden. Stable Diffusion schlägt sich passabel. Die Bilder von Adobe Firefly können getrost als völlig unbrauchbar gelten.

Die Bilder in diesem Artikel zeigen, was die neuesten Versionen der KI-Bildgeneratoren bei Porträts leisten. Sie stammen alle vom selben Textprompt. Standardmäßig werfen die meisten Dienste zu jedem Prompt jeweils vier Bilder aus. Die erste Zeile zeigt Bilder von Midjourney 5, darunter folgen je vier Vorschläge von Dall-E 2 (via Bing Chat), Stable Diffusion XL (via DreamStudio) und schließlich Adobe Firefly.

Sie sollen ein fotografisches Porträt in einem stimmungsvoll beleuchteten Restaurant im Stil einer klassischen Mittelformatkamera von 1970 mit der Farbgebung eines Polaroid-Sofortbildfilms von Fujifilm wiedergeben. Die monumentale Eingabe lautete: "hyper-real nostalgic polaroid portrait in dimly lit stylish restaurant, capturing genuine emotions and character of subject, shot with Mamiya RB67 camera on Fujifilm FP-100C instant film, f/2.8 aperture, 1/30 shutter speed, sharp focus on individual's expressive features and atmospheric surroundings, subtle film grain adding nostalgic authentic quality".

Mit solchen Prompts kann vor allem Midjourney 5 gut umgehen. Aber auch die neuesten Versionen von Dall-E 2 und Stable Diffusion produzieren bessere Resultate mit längeren Vorgaben. Nur bei Adobe Firefly mussten wir einige Wörter kürzen. Die Ergebnisse der ersten drei Dienste sind auf dramatische Weise besser als jene aus dem letzten Test.

Die Version von Dall-E 2 auf open.ai produziert schlechtere Resultate (wie hier) als die über Bing Chat verfügbare.

Midjourney 5 erzeugt auf den ersten Blick völlig überzeugende Porträts. Dass es sich bei den Bildern der ersten Reihe um die Produkte von künstlicher Intelligenz handelt, verraten lediglich Details im Hintergrund wie Unregelmäßigkeiten bei Fenster- und Bilderrahmen oder Unstimmigkeiten bei der Schärfe im extremen Vordergrund. Anatomie von Gesicht, Körper und Händen gibt Midjourney absolut überzeugend wieder, lediglich bei deren Komposition zu einem Ganzen hapert es: Im dritten Bild von links beispielsweise passen zwar jeweils die Schultern und die Hand zum Kopf. Die Haltung der Hand passt jedoch nicht zur Schulter. Es braucht aber viel Zeit, ein geschultes Auge und eine gehörige Portion Skepsis, um solche Fehler zu entdecken.

Dall-E 2 zeigt in der zweiten Zeile fehlerfreie Porträts. Die von Bing Chat generierten Bilder waren um Längen besser als die Ergebnisse von openai.com. Anders als bei den Midjourney-Porträts fällt es bei Dall-E 2 schwer, Fehler zu finden. Eventuelle Unstimmigkeiten kaschiert die starke Unschärfe des Hintergrunds. Die Haut der Personen weist weniger Textur auf als bei Midjourney 5. Sakkos, Hemden und T-Shirts sowie die Gesichtszüge wirken absolut überzeugend. Kurioserweise entschied sich Midjourney ausschließlich für Damen, Dall-E 2 aber nur für Herren. Der Textprompt ließ offen, was für Personen die Porträts zeigen sollten.

Auch Stable Diffusion offenbart deutliche Fortschritte beim Generieren von Gesichtern. Der vom Entwickler bereitgestellte Dienst auf dreamstudio.ai produziert mit der SDXL-Beta überzeugende Resultate (siehe Reihe drei); einigen haftet jedoch etwas Künstliches an. Hände und Handgelenke halten die generierten Personen nach wie vor auf unnatürliche Weise. Das Setting eines dunkel beleuchteten Restaurants ignoriert Stable Diffusion 2.1 noch völlig, SDXL setzt sie mittlerweile korrekt um.

Die von Adobe Firefly generierten Bilder sind völlig missglückt. Die Merkmale der abgebildeten Personen in der vierten Reihe wirken verzerrt und unnatürlich. Die jugendlich-männlichen Gesichtszüge kontrastieren mit dem Kleidungsstil älterer Damen. Auch die Angaben zum fotografischen Stil missversteht der Dienst – sie materialisieren sich als kontextfrei im Raum schwebende Fotos. Das zweite Bild zeigt auf der Schulter der Person sogar die Kamera, deren Stil das Bild simulieren soll.

c’t – Europas größtes IT- und Tech-Magazin

Alle 14 Tage präsentiert Ihnen Deutschlands größte IT-Redaktion aktuelle Tipps, kritische Berichte, aufwendige Tests und tiefgehende Reportagen zu IT-Sicherheit & Datenschutz, Hardware, Software- und App-Entwicklungen, Smart Home und vielem mehr. Unabhängiger Journalismus ist bei c't das A und O.

(akr)