KI-Bildgenerator: Wie man Stable Diffusion XL feintunen kann

Stable Diffusion XL gilt als bestes Open-Source-Text2Image-Modell. Innerhalb des Hugging-Face-Diffuser-Frameworks kann man das Modell mit Python feintunen.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht
Lesezeit: 14 Min.
Von
  • Ramon Wartala
Inhaltsverzeichnis

Bildgeneratoren, die Bilder aus Prompts erzeugen können – daher Text2Image-Modelle genannt – erfreuen sich nicht nur in den sozialen Medien großer Beliebtheit. Das eigene Konterfei in eine Barbie oder einen Ken zu verwandeln ist dank Diensten wie Bairbie.me oder Replicate längst für Centbeträge möglich. Im professionellen Umfeld hingegen geht es mittlerweile primär um die Kontrolle über die Bildausgabe der neuen Bilderzeugungstechnik. Denn in Anwendungsfeldern wie dem Marketing möchte man schließlich nicht irgendein Produktbild zeigen, das dem eigenen bloß ähnelt, sondern eines, das genau so aussieht wie das beworbene Produkt. Um das zu erreichen, kann man sich zurzeit noch nicht allein auf vortrainierte kommerzielle Modelle verlassen, so gut sie auch sein mögen. Man muss selbst Hand anlegen und das Modell feinjustieren – wofür sich Stability AIs Text2Image-Modell Stable Diffusion XL (SDXL) hervorragend eignet.

Seit Ende Juli 2023 ist Stable Diffusion XL 1.0 verfügbar. Im Gegensatz zu älteren Versionen besteht das Modell aus 3,5 Milliarden Parametern und kann Bilder bis zu einer Größe von 1024 × 1024 Pixeln erzeugen. Entwickler Stability AI hat das Modell auf GitHub als Open Source veröffentlicht, was dazu führte, dass die eigene Community in kurzer Zeit zahlreiche Blogartikel und YouTube-Videos zu SDXL veröffentlichte. Auch auf Portalen wie Civitai und Replicate entstanden viele Erweiterungen, die auf Basis verschiedener Motive und Stilrichtungen trainiert wurden.

Mehr zu KI-Bildgeneratoren
Ramon Wartala

Ramon Wartala ist Director Data Science bei Accenture Song in Hamburg. Als Berater entwirft und implementiert er mit seinem Team Datenarchitekturen für Machine-Learning-Lösungen seiner Kunden.

Im Folgenden soll gezeigt werden, wie sich SDXL mithilfe der Hugging-Face-Diffuser-Frameworks in Python feintunen und ausführen lässt. Dabei nutzt man das DreamBooth-Verfahren zum Training von Low-Rank-Adaptionen, kurz LoRAs.