Stable Diffusion 3.5 erscheint in mehreren Versionen – und kann Gras

Stability AI hat den Bildgenerator Stable Diffusion 3.5 in mehreren Versionen verfügbar gemacht – Large, Large Turbo und Medium.

16

Eine Frau im Gras liegend.

(Bild: Stability AI)

01.11.2024, 13:27 Uhr

Lesezeit: 3 Min.

Von

Eva-Maria Weiß

Stable Diffusion 3.5 gibt es in drei Versionen, die auf unterschiedliche Bedürfnisse angepasst sind. Die Bildgeneratoren können auf Consumer-Hardware laufen, heißt es von Stability AI, sie seien zudem einfach anzupassen an den eigenen Bedarf. Die Nutzung ist für die meisten Anwendungsfälle kostenlos – unter der Stability AI Community License sogar für kommerzielle Zwecke. Alle Modelle sind via Hugging Face und Github verfügbar.

Das Large-Modell hat acht Milliarden Parameter und ist damit das größte der Modell-Familie. Es eignet sich mit seiner Auflösung bis zu einem Megapixel laut Blogbeitrag für den professionellen Einsatz. Die Turbo-Variante ist besonders schnell und erstellt Bilder in nur vier Schritten, heißt es. Sie ist offenbar durch sogenannte Model-Destillation entstanden, das heißt, man hat das Wissen eines größeren Modells auf ein kleineres übertragen. Diese Methode erleichtert das Training.

Stable Diffusion 3.5 Medium ist ein kleines Modell, das erst einige Tage nach den anderen Versionen veröffentlicht wurde. Es basiert auf 2,5 Milliarden Parametern und einer verbesserten Architektur, die 3.5 Medium vor allem für Endverbraucher interessant machen soll. Dabei schafft es sogar eine Auflösung zwischen 0,25 und 2 Megapixeln.

Stable Diffusion 3.5 soll wieder konkurrenzfähig sein

Stability AI gibt zu bedenken, dass Kompromisse bei der Entwicklung geschlossen wurden. Man habe besonders darauf geachtet, dass die Modelle einfach anzupassen sind und für möglichst viele Zwecke genutzt werden können. Dafür variiere der Output auch stärker – etwa in der Ästhetik oder in der Kontinuität.

Als Bulletpoints hebt Stability AI hervor, dass die Modelle anpassbar sind, keine besondere Hardware brauchen, um zu laufen, und dass die Menschen verschiedenste Typen zeigen. Auch seien unterschiedliche Stile möglich. Die Qualität der Bilder könne mit denen viel größerer Modelle mithalten.

Das Vorgängermodell, Stable Diffusion 3 war bei den Nutzerinnen und Nutzern nicht sonderlich gut angekommen. Kurz nach der Veröffentlichung tauchten unter anderem Bilder auf, die Menschenähnliches im Gras liegend zeigten. Offenbar gelang es dem Bildgenerator nicht, heile Menschen im Rasen darzustellen – das soll behoben worden sein, wie das Aufmacherbild des aktuellen Blogbeitrags zeigt. Zudem hatte es Änderungen an den Lizenzen gegeben. Stability AI gab zu, den Erwartungen nicht entsprochen zu haben: "Wir sind uns bewusst, dass unsere neueste Veröffentlichung, SD3 Medium, nicht den hohen Erwartungen der Community entsprochen hat." Man versprach Besserung und änderte erneut die Lizenzen.