KI-Bildgenerator Stable Diffusion 2 erhöht die Auflösung und blickt in die Tiefe
Das Open-Source-System zum Generieren von Bildern aus Text-Prompts bringt im Vergleich zu v1 neue Modelle für eine verbesserte Auflösung mit.
Bei dem KI-System Stable Diffusion geht es Schlag auf Schlag: Stability AI hat Version 2.0 des Systems angekündigt, das Bilder anhand von Text-Prompts erstellt. Drei Monate nach dem Release von v1 und einen Monat nach der holprigen Veröffentlichung von Version 1.5 ist das Modell nun in einem neuen Repository daheim. Version 2 kann Bilder in höherer Auflösung erstellen und die Tiefeninformationen in Bildern auswerten und übertragen.
Im August war Stable Diffusion v1 angetreten, KI-Bildgeneratoren wie DALL·E 2 und Midjourney Konkurrenz zu machen. Inzwischen hat auch Nvidia mit eDiffi ein eigenes Text-zu-Bild-System ins Rennen geschickt. Stable Diffusion ist von den Nutzungsbedingungen her attraktiv, weil es einerseits als Open-Source-Projekt erschienen ist und andererseits die Lizenz die kommerzielle Nutzung der erstellten Bilder erlaubt.
Neue Modelle
Die Text-zu-Bild-Modelle in Stable Diffusion 2.0 verwenden neuerdings OpenCLIP als Text-Encoder. Das Open-Source-Projekt basiert auf CLIP (Contrastive Language-Image Pre-training) von OpenAI. Die Non-Profit-Organisation LAION hat den Encoder weitgehend entwickelt, und Stability AI hat sich an der Entwicklung beteiligt.
Als Grundlage für das Training des Modells dient wie in v1 ein Subset des multimodalen Datensatzes LAION-5B, der 5,8 Milliarden Text-Bild-Paare enthält. Ein NSFW-Filter (Not Safe for Work) hat nicht jugendfreie Inhalte aus dem Datensatz entfernt.
Hochgerechnete Auflösung
Die Text-to-Image-Modelle erstellen Bilder wahlweise mit einer Standardauflösung von 512x512 oder 768x768 Pixeln. Stable Diffusion 2.0 bringt ein Upscaler-Diffusion-Modell mit, das die Auflösung der erstellten Bilder vervierfacht.
Daneben hat das Release ein erweitertes Inpainting-Modell an Bord, um Bilder nachträglich zu verändern, also Elemente hinzuzufügen oder heraus zu retuschieren.
Blick in die dritte Dimension
Neu ist das Depth-Conditional-Modell depth2img, das die Tiefe des Bildes berücksichtigt, um aus einem Eingabe-Image Bilder zu erstellen, die andere Elemente mit denselben Tiefeneigenschaften versehen, damit sie ebenso plastisch wirken.
Rasanter Start und erste Wirrungen
Stable Diffusion ist aus der Zusammenarbeit zwischen Stabilty AI, Runway ML, Forschern der Computer Vision & Learning Group (CompVis) an der LMU München – zuvor in Heidelberg –, Eleuther AI und LAION (Large-scale Artificial Intelligence Open Network) entstanden. Robin Rombach von CompVis und Patrick Esser von Runway ML haben v1 des Projekts geleitet.
Nach der Veröffentlichung hat Stable Diffusion einen steilen Start hingelegt und auf GitHub innerhalb von 90 Tagen 33.600 Sterne erhalten. Dabei hat das Projekt nicht nur rasant User, sondern auch bald Investoren gefunden. Zwei Monate nach dem Release durfte sich Stability AI über gut 100 Millionen US-Dollar Investorengelder freuen.
Zwei Hauptversionen und drei Repositories
Kurz danach gab es ein Hin und Her bezüglich der Veröffentlichung von Version 1.5, die zunächst erschien, dann doch wieder verschwunden war, um schließlich doch verfügbar zu bleiben. Nachdem das v1-Repository auf GitHub unter CompVis lag, hatte Runway ML für Version 1.5 ein neues Repository angelegt. Stable Diffusion 2.0 findet sich nun erneut in einem frischen Repository unter dem Dach von Stability AI.
Weitere Details zur aktuellen Version lassen sich dem Stable-AI-Blog sowie der News-Sektion des Readme im aktuellen Repository entnehmen. Im Repository finden sich zudem Beispiele für Prompts und Anpassungen über die Modelle für das Upscaling und die Tiefeninformationen. Wie der Vorgänger ist Stable Diffusion 2.0 darauf optimiert, auf einer einzelnen GPU zu laufen. Erklärtes Ziel ist, dass möglichst viele die Software nutzen können.
(rme)