Stable Diffusion 3 soll Text erstellen und fotorealistische Bilder liefern

Die nächste Version des freien Bildgenerators Stable Diffusion soll fotorealistische Bilder und selbst Text ausgeben können. Noch ist sie "early preview".

In Pocket speichern vorlesen Druckansicht 13 Kommentare lesen

(Bild: Stability AI)

Lesezeit: 3 Min.
Inhaltsverzeichnis

Das britische KI-Unternehmen Stability AI hat seinen Bildgenerator Stable Diffusion in Version 3 in der Variante Medium angekündigt. Stable Diffusion 3 steht künftig in verschiedenen Größen zur Verfügung, die mit 800 Millionen bis 8 Milliarden Parametern trainiert wurden. Die angekündigte Medium-Variante wurde mit 2 Milliarden Parametern trainiert. Stability AI bietet jeweils eine API an, stellt aber auch den Quelltext auf der KI-Plattform von Hugging Face zum Download zur Verfügung.

Stable Diffusion 3 Medium befindet sich derzeit noch im Status "early preview". Vorerst steht das Modell also nicht einer breiten Öffentlichkeit zur Verfügung. Interessenten können sich auf eine Warteliste setzen lassen. Bisherige Modelle hat Stability AI in finaler Version unter der Lizenz Creative ML OpenRAIL-M veröffentlicht.

Der Nachfolger der bisherigen Generation soll fotorealistische Bilder in höherer Detailtiefe und Qualität als bisher erzeugen können. Darüber hinaus verspricht Stability AI, dass Stable Diffusion 3 Text im Bild erzeugen können soll, ein Versprechen, das allerdings zuvor viele Anbieter abgaben, ohne bisher verlässliche Resultate abliefern zu könnnen.

Vor allem "Multi-subject Prompts", also Texteingaben mit mehreren Motiven, die miteinander in Beziehung treten, soll Stable Diffusion 3 besser umsetzen können als bisher. Hier liegt eine Schwäche früher Bildgeneratoren: Die genaue Umsetzung konkreter Eingaben wie "eine Reisbowl mit Hühnchen, Zwiebeln und Erbsen, aber ohne Karotten" oder "ein Roboter in einem Krankenbett und daneben eine stehende Ärztin im weißen Kittel mit einem Klemmbrett in der Hand" überfordern generative KI der ersten Stunde.

Komplexe Texteingaben soll Stable Diffusion 3 präziser umsetzen können als bisherige Modelle.

(Bild: Stability AI)

Vor allem Stability AI stand in der Vergangenheit mehr als andere Anbieter immer wieder in der Kritik, mit urheberrechtlich geschütztem Bildmaterial zu trainieren und die Darstellung von Motiven zu erlauben, die beispielsweise Dall-E von OpenAI, Adobe Firefly und Midjourney blockieren, etwa vom US-Präsidenten oder dem Papst.

Stability AI versichert in der Ankündigung von Stable Diffusion 3: "We’ve introduced numerous safeguards" (Wir haben zahlreiche Sicherheitsvorkehrungen getroffen), jedoch ohne darauf einzugehen, was damit gemeint sein könnte. Die Webseite vermeldet dazu, der Hersteller ermuntere zu verantwortungsvoller Nutzung.

Die neue Version soll laut Hersteller auch Schriftzüge in Bilder integrieren können.

(Bild: Stability AI)

Das KI-Unternehmen bietet drei verschiedene Abomodelle an. Die nichtkommerzielle Lizenz für einzelne Entwickler und für die Forschung ist kostenlos. Für Nutzer mit weniger als eine Million US-Dollar Umsatz kostet Stable Diffusion 20 US-Dollar monatlich. Für größere Unternehmen macht Stability AI individuelle Preise. (akr)