Stable Diffusion: Stability AI auf Kurs mit 101 Millionen US-Dollar Finanzierung

Investoren stärken dem Anbieter des freien KI-Bildgenerators Stable Diffusion den Rücken. CEO Mostaque gab in San Francisco Einblick in die Unternehmensvision.

In Pocket speichern vorlesen Druckansicht 8 Kommentare lesen
Cat Knight by Valère, valere at hostux.social, created with Stable Diffusion

(Bild: Cat Knight by Valère, created with Stable Diffusion)

Lesezeit: 6 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

Stability AI hat seine Seed-Finanzierungsrunde erfolgreich abgeschlossen und streicht 101 Millionen US-Dollar an Investorengeldern ein. Laut Bloomberg wird der Wert der Firma mittlerweile auf eine Milliarde US-Dollar geschätzt, und eine Reihe von Investoren wie Coatue, Lightspeed Venture Partners und O'Shaughnessy Ventures LLC führten die Finanzierungsrunde an.

Das Unternehmen hatte im August 2022 Stable Diffusion als Open-Source-Tool veröffentlicht. Der Text-zu-Bild-Generator ähnelt in manchen Aspekten DALL·E 2 von OpenAI (und Microsoft), wurde aber etwas anders trainiert und verfolgt eine von den Großkonzernen abweichende Strategie: Das System steht seit seinem Public Release jedermann frei zur Verfügung und ist stärker Community-orientiert, die Nutzerinnen und Nutzer können ihre damit erzeugten Bildern nach Belieben verwenden, und die Herausgeber hatten das System bewusst klein genug gebaut, damit es weniger starke Hardware für den Einsatz benötigt.

Laut dem CEO von Stability AI, Emad Mostaque, haben seit dem Public Release Ende August über 200.000 Entwicklerinnen und Entwickler Stable Diffusion (SD) heruntergeladen, über 1000 Projekte, die auf SD aufbauen, seien entstanden, und rund 170 Millionen Bilder seien bereits entstanden. Auch das kommerzielle Angebot von Stability AI, Dream Studio, habe binnen sieben Wochen 1,5 Millionen Nutzer gewonnen. Zudem existieren Möglichkeiten über beispielsweise Collab Notebooks das System zu nutzen, was im weitesten Sinne einer "Demokratisierung" des Zugangs zu bildgebender KI gleichkommt. Bereits Umgebungen von unter 8 GPU Rechenleistung gelten als geeignet, um mit Stable Diffusion KI-Bilder zu erzeugen. Zahlreiche Einzelpersonen und Teams haben seit dem Erscheinen ergänzende Tools, GUIs und Anwendungen für Stable Diffusion gebaut.

Auch Forks und Weiterentwicklungen des Modells sind möglich – so existiert mit Japanese Stable Diffusion ein japanischer Ableger des Modells, dem Nutzer auf Japanisch Textanweisungen für Bild-Output geben können. Durch eine Kombination mit dem automatischen Spracherkennungssystem Whisper von OpenAI (Speech-to-Text mit ASR) lassen sich Prompts in mehreren Sprachen einsprechen oder einsingen (Whisper to Stable Diffusion). Fähigkeiten wie Inpainting – das Modizifizieren eines hochgeladenen oder erzeugten Bildes, beispielsweise zum Reparieren und Auffüllen fehlender oder beschädigter Stellen – sowie Outpainting – das Erweitern über den Bildrahmen hinaus – beherrscht das Modell mittlerweile. Ein Projekt namens Infinity erlaubt unbegrenztes Outpainting auf unendlich großer Leinwand. Zudem ist auf GitHub ein Stable Diffusion Web UI für Outpainting zu finden. Und das ist nur eine Auswahl der zahlreichen Plug-ins, Tools und Anwendungen, die die Community seit dem Release geschaffen hat – das Ökosystem zu Stable Diffusion wächst rasant.

Die Engine stammt aus einer Forschungszusammenarbeit zwischen Stability AI, Runway ML, Forschern der Universität Heidelberg (aus dem Umfeld der Computer Vision Group), der Graswurzelbewegung EleutherAI und LAION, dem "Large-scale Artificial Intelligence Open Network". Der Generator ist unter anderem auf einem Subset der fünf Milliarden Einträge umfassenden Bilddatenbank LAION-5B trainiert. Um ein Missverständnis auszuräumen, das zuletzt die Runde machte: LAION-5B und seine kleinere Schwester LAION-400M stellen selbst keine Bilder bereit, sondern sind Indizes zu im Internet vorhandenen Bildern, zu denen eine Textbeschreibung existiert. Unlängst hatte sich eine Diskussion um die Rechte der Künstler entfacht, deren Werke teils ohne deren Zustimmung Teil des Trainingsdatensatzes waren.

So versucht sich der Künstler Greg Rutkowski gegen die Verwendung seiner Bilder als KI-Vorlage zu wehren, da sein Stil gehäuft in Prompts zum Einsatz kommt und das Internet nun mit Bildern geflutet wird, die unter seinem Namen laufen, aber nicht von ihm stammen – sein eigentliches Portfolio werde dabei zunehmend überlagert. Allerdings lässt sich ein Stil urheberrechtlich nicht schützen, und die Modelle greifen auch nicht direkt auf einzelne Werke von Künstlern zu, sodass hier noch rechtliche Klärungsprozesse bevorstehen. Die Lizenz Creative ML Open RAIL-M jedenfalls untersagt eine Reihe missbräuchlicher Nutzungen und die Verantwortung für sachgemäßen Einsatz obliegt dabei den Usern von Stable Diffusion.

Der CEO des in London ansässigen Unternehmens Stability AI traut Usern und Developern einen verantwortungsbewussten Umgang mit der neuen Technologie zu. Generative Künstliche Intelligenz verspreche, große Herausforderungen der Menschheit zu lösen. Verwirklichen ließe sich das jedoch nur mit offener Technologie, die allen zugänglich sei. So eröffnete Emad Mostaque die Veranstaltung zur Finanzierungsrunde in San Francisco am 18. Oktober mit folgenden Worten: "Warum Open Source? Weil es die Infrastruktur der Zukunft ist. Ergibt es Sinn, dass die mächtigste Technologie der Welt von einigen wenigen nach deren Gutdünken kontrolliert wird? Sie sollte allen gehören und von allen kontrolliert werden. Datenbanken und Dienste haben gezeigt, dass dafür ein Geschäftsmodell existiert." Eine Aufzeichnung der Rede findet sich auf YouTube.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Einige Teilnehmer der Veranstaltung fühlten sich an den frühen Steve Jobs erinnert und an dessen Einführung des MacIntosh zu einer Zeit, als noch niemandem klar war, was ein grafisches Interface ist, geschweige denn, wie man eine Mouse bedient. "Das hier hat mich genauso beeindruckt: Der Mac veränderte mein Leben, und diese Technik jetzt wird die Zukunft ändern", fasste ein Zuschauer seinen Eindruck zusammen. Diesen Eindruck teilen die KI-Szene, Investoren und Experten aus der Wirtschaft mittlerweile, auch über Stable Diffusion hinaus. Insgesamt dürfte die Entwicklung generativer KI-Modelle eine Technikrevolution einleiten, die keinen Stein auf dem anderen lässt. Manche sprechen gar von einer neuen Industriellen Revolution, die unserer Wirtschaft und unserer Art zu arbeiten bevorsteht.

Stability AI jedenfalls kann mit der nun aufgestellten Finanzierung seine Rolle am Markt festigen. Das Unternehmen war bei der Finanzierungsrunde das einzige unabhängige Unternehmen für multimodale KI. Weitere Details lassen sich der Pressemeldung entnehmen. Interessierte finden die Gewichte, die Modellkarte und den Quellcode von Stable Diffusion in einem Repository bei Hugging Face. Weiterführende Links, unter anderem zu öffentlichen Collab Notebooks, lassen sich der Release-Meldung zu Stable Diffusion im Stability-Blog entnehmen. Die Community trifft sich in einer dedizierten Gruppe auf Discord zu Austausch über die Arbeit mit dem KI-Bildgenerator.

(sih)