Stability AI veröffentlicht KI-Bildgenerator DeepFloyd IF

Der Stable-Diffusion-Hersteller Stability AI hat mit DeepFloyd einen Bildgenerator entwickelt, der sich besonders auf Schrift und Grafik verstehen soll.

In Pocket speichern vorlesen Druckansicht 9 Kommentare lesen

DeepFloyd If soll Bilder generieren können, die Schriftzüge enthalten.

Lesezeit: 3 Min.
Inhaltsverzeichnis

Die aktuelle Generation KI-gestützter Bildgeneratoren leistet Erstaunliches, hat aber auch einige Defizite, und eines davon ist das Generieren von Schriftzügen in Bildern, beispielsweise „Bar und Restaurant“ oder „Hotel, no vacancy“ auf einem Gebäude. Das KI-Labor DeepFloyd hat den KI-Bildgenerator If entwickelt, der sich genau darauf verstehen soll. Neben fotorealistischen Darstellungen mit Schriftzügen soll er sich auch für grafische Aufgaben wie Logo-Design eignen.

c't Fotografie 2/24

DeepFloyd wird vom Softwarehersteller Stability AI unterstützt, der durch den von ihm entwickelten Bildgenerator Stable Diffusion bekannt ist. Der Name erinnert nicht nur zufällig an die 1965 gegründete englische Rockband Pink Floyd. Auch die Bezeichnung des Algorithmus If ist dem gleichnamigen Pink-Floyd-Hit entliehen. Abgewandelte Lyrics zum Bildgenerator besagen: „If I was a model, I'd be open source.“ Dasselbe Studio hat auch RU Dall-E entwickelt, die russische Kopie des gleichnamigen Bildgenerators.

If basiert auf Googles unveröffentlichtem KI-Bildgenerator Imagen und hat eine völlig andere Architektur als Stable Diffusion. Der Bildgenerator enthält ein Large-Language-Model (LLM), das mit einem kaskadierenden Pixel-Diffusion-Modell verbunden ist.

Als Sprachmodell kommt T5-XXL-1.1 zum Einsatz, Google Research hat das englischsprachige LLM als Open Source freigegeben. Der eingefrorene Text-Encoder soll den Prompt besser zu verstehen helfen, ergänzt aber keine Stichwörter, sondern erzeugt einen sinnvolleren Vektor als Eingabe für das Diffusion-Modell. Andere Bildgeneratoren setzen auf das KI-Modell CLIP (Contrastive Language-Image Pretraining) mit multimodaler Architektur.

Zunächst generiert If aus dem Prompt ein Bild mit den Abmessungen 64 x 64 Pixel. Hier stehen drei Basismodell mit einer unterschiedlichen Zahl an Parametern zur Verfügung: IF-I 400M, IF-I 900M und IF-I 4.3B. Danach folgen zwei Superresolution-Arbeitsschritte, in denen es weitere Details erhält, bis es über den Zwischenschritt von 256 x 256 Pixeln eine native Auflösung von 1024 x 1024 Pixeln aufweist.

Für die erste Superresolutionstufe stehen die zwei Modelle IF-II 400M und IF-II 1.2B zur Verfügung.; für die zweite Stufe das Model IF-III 700M. Die angehängten Zahlen beziehen sich auf die Anzahl der Parameter in Millionen (M) beziehungsweise Milliarden (B).

Die Architektur von If: Am Anfang steht Googles Large-Language-Model T5 XXL. Dann folgen drei Diffusionmodelle des Bildgenerators.

Der Bildgenerator wurde mit dem LAION-A-Datensatz mit insgesamt 4,3 Milliarden Parametern trainiert. Er enthält rund 1,2 Milliarden Bildern aus dem LAION-5B-Datensatz. Zum Vergleich: Beim Training von Midjourney V5 kamen nach Herstellerangaben 5 Milliarden Bildparametern zum Einsatz, für Stable Diffusion XL 2,1 Milliarden Parameter.

Einen Onlinebildgenerator, der Deepfloyds IF einsetzt, gibt es bisher nicht. Die Software steht auf Github zum Download bereit. Die bisherige Lizenz erlaubt den Einsatz nur für die Forschung, nicht für kommerzielle Zwecke. (akr)