Bildgenerator von GPT-4o: Was vermutlich technisch hinter dem Durchbruch steckt

Der Bildgenerator von GPT-4o beeindruckt mit Qualität und präziser Textintegration. Doch was unterscheidet ihn von anderen Modellen? Ein Erklärungsversuch.

In Pocket speichern vorlesen Druckansicht 30 Kommentare lesen

"Easter Egg": OpenAI gibt auf der Webseite mehr oder weniger subtile Hinweise zur Funktionsweise der Bilderzeugung mit GPT-4o.

(Bild: OpenAI / Hervorhebung heise online)

Lesezeit: 8 Min.
Inhaltsverzeichnis

Der KI-Bildgenerator von GPT-4o erzeugt erstaunlich hochwertige, konsistente Bilder, die sogar (meistens) korrekte und lesbare Texte enthalten – eine Fähigkeit, an der bisherige KI-Modelle oft scheiterten. Zahlreiche Beispiele, die seit Tagen überall im Internet kursieren, zeigen eindrucksvoll den Qualitätssprung. Besonders stark ist GPT-4o darin, hochgeladene Referenzbilder zu analysieren und in einen anderen Stil zu übertragen oder in Bilder zu integrieren. Doch was macht OpenAI bei GPT-4o anders als etwa Midjourney oder Dall-E, um dies zu erreichen?

"Fake Friends": Die Bilder zeigen die Stärken und Schwächen von GPT-4o auf. Einerseits stülpt das Modell verblüffend gut Stile (in diesem Fall "Comic") über vorhandene Vorlagen (Foto: oben links), hat aber eindeutig ein Faible für englische Texte und übernimmt nicht immer alle Texte korrekt (oben rechts). Beim Hinweis, dass der Text in dem Foto deutsch war, wurde selbiger korrekt übertragen, allerdings abweichend vom Originalstil (unten links). Weist man GPT-4o an, Texte, Grafiken und Farben anzupassen, orientiert es sich weiterhin verblüffend dicht am Original (unten rechts, [Anm. d. R: das Produkt haben wir uns ausgedacht).

(Bild: Foto, Verfremdungen erzeugt mit GPT-4o durch heise online)

Im Folgenden versuchen wir, aus den bisher spärlichen Informationen von OpenAI, Vergleichen mit anderen Modellen sowie eigenen Beobachtungen plausible Hypothesen über die Funktionsweise des GPT-4o-Bildgenerators abzuleiten. Dabei sei ausdrücklich betont, dass es sich hierbei um eine Analyse handelt, die auf Annahmen und Beobachtungen basiert.

Ähnliche Fähigkeiten zeigten beispielsweise LlamaGen und davor bereits Googles "Pathways Autoregressive Text-to-Image Model" (Parti) aus dem Jahr 2022 – wenn auch auf qualitativ geringerem Qualitätsniveau. Parti war darauf ausgelegt, "fotorealistische Bilder in hoher Qualität zu erzeugen und komplexe, inhaltsreiche Szenen abzubilden, bei denen auch umfassendes Weltwissen berücksichtigt wurde".

Die Beschreibung der Bilderzeugungsfunktionen auf der OpenAI-Webseite liest sich verblüffend ähnlich: "Die native Bildgenerierung ermöglicht es GPT-4o, sein Wissen nahtlos zwischen Text und Bild zu verknüpfen. Das Ergebnis ist ein Modell, das intelligenter und effizienter wirkt."

Und tatsächlich nutzt GPT-4o laut OpenAI ebenfalls ein "autoregressives Modell" (AR-Modell) und arbeitet somit fundamental anders als Midjourney oder Dall-E, bei denen ein Diffusionsmodell die Bilder erzeugt.

OpenAI scheint den Ansatz gegenüber LlamaGen oder Parti jedoch deutlich weiterentwickelt und mehrere Schlüsselfähigkeiten optimiert zu haben. So verspricht GPT-4o etwa die präzise Platzierung von bis zu 20 Objekten in einem einzigen Bild, inklusive einer detaillierten Kontrolle über deren Eigenschaften und Beziehungen. Dies ist erheblich mehr, als bisherige Bildgeneratoren erreichen, die typischerweise maximal die Hälfte davon schaffen.

Beobachtet man GPT-4o bei der Bilderzeugung, erkennt man zwei Phasen: Zunächst entsteht schnell eine grobe Bildstruktur aus Rauschen – ähnlich beginnen auch Midjourney und andere. In der zweiten Phase wird das finale Bild jedoch präzise zeilenweise von oben nach unten aufgebaut ("Adding details"), wobei anders als bei anderen Modellen jedes in diesem Schritt erzeugte Pixel bereits final berechnet und platziert wird.

Doch wie unterscheidet sich der autoregressive Ansatz von den Diffusionsmodellen bei der Bilderzeugung? Diffusionsmodelle fußen auf einem Prozess der schrittweisen Entrauschung, beginnend mit einem vollständig verrauschten Bild. Iterativ werden Entrauschungsschritte angewendet, die durch stochastische Differenzialgleichungen beschrieben werden, um die ursprüngliche Datenverteilung zu approximieren. Während des Trainings mit solchen, aus unzähligen Originalbildern erzeugten Serien lernt das Diffusionsmodell sukzessive, aus purem Rauschen realistische Motive in allen möglichen Stilen zu generieren.

AR-Modelle hingegen generieren Bilder, indem sie diese in viele kleine Bildabschnitte, sogenannte Token, aufteilen. Wer sich schon einmal mit Sprachmodellen beschäftigt hat, kennt diese Token als Wortbestandteile. In diesem Fall repräsentiert jeder Token indes einen kleinen Bereich des gesamten Bildes, beispielsweise einen Block von 8 × 8 oder 16 × 16 Pixeln.

Eine entscheidende Frage dabei ist: Was genau sind diese "Token" im Falle von Bildern? Anders als Wörter in einem Satz sind Bilder kontinuierliche Pixelgitter – es gibt also kein offensichtliches diskretes Vokabular. Dieses Problem löst GPT-4o vermutlich, indem es einen speziellen Bild-Tokenizer verwendet, oft wird hierfür ein vektorquantisierter Autoencoder (VQ-VAE) verwendet. Dieser komprimiert das Bild in eine Sequenz diskreter Codes. Zhiyuan Yan et al spekulieren jedoch, dass OpenAI statt diskreten Tokens möglicherweise kontinuierliche Token verwendet. Sie stützen ihre Annahme darauf, dass VQ-VAE nach bisherigen Erfahrungen die Fähigkeit zur semantischen Erfassung von Bildinhalten und deren präzise Darstellung beeinträchtigen könne, GPT-4o aber in diesem Feld gegenüber anderen Modellen einen großen Schritt nach vorn gemacht habe.

Im Unterschied zur Vektorquantisierung, die diskrete Codebücher verwendet, um Bildinhalte zu repräsentieren, ermöglichen kontinuierliche Token eine feinere und genauere Darstellung von Daten, da sie nicht auf eine begrenzte Anzahl von diskreten Zuständen beschränkt sind.

Unabhängig davon, ob diskret oder kontinuierlich, schafft die Tokenisierung die Grundlage für die Bilderzeugung, indem sie Motive aller Art in eine höhere, semantische Repräsentation abstrahiert. Statt Rohpixel zu generieren, was langsam und ineffizient wäre, generiert das Modell diese Token-Indizes. Ein separates Decoder-Netzwerk übersetzt die generierte Token-Sequenz anschließend zurück in ein kohärentes Bild.

Ein autoregressiver Algorithmus generiert ein Bild als Produkt bedingter Wahrscheinlichkeiten von Token. Betrachtet man also ein Bild als eine Sequenz von Token z1, z2, ..., zN, so modelliert ein AR-Modell die gemeinsame Wahrscheinlichkeit P(z1, z2, ..., zN) mithilfe der Kettenregel als das Produkt bedingter Wahrscheinlichkeiten:

P(z1, z2, ..., zN) = P(z1) Ă— P(z2|z1) Ă— P(z3|z1, z2) Ă— ... Ă— P(zN|z1, z2, ..., zN-1)

Anders gesagt: Das Modell lernt die Wahrscheinlichkeit, jedes Token vorherzusagen, basierend auf allen zuvor generierten Token. Der Prozess beginnt typischerweise mit einer Textbeschreibung, aus welcher der erste dazu passende Bildtoken vorhergesagt wird. AnschlieĂźend werden weitere Token jeweils auf Grundlage aller vorherigen Token bestimmt, bis schlieĂźlich das gesamte Bild zusammengesetzt ist.

Während des Trainings erhält GPT-4o zahlreiche Sequenzen von Bildtoken, oft zusammen mit Textbeschreibungen oder anderen konditionierenden Daten. Dabei lernt das Modell effektiv, das nächste Token in einer Sequenz vorherzusagen.

Die Tokenisierung bringt einige Vorteile mit sich: Sie reduziert die Sequenzlänge gegenüber der Pixel-für-Pixel-Generierung drastisch, filtert hochfrequentes Pixelrauschen heraus und ermöglicht es dem Modell, mit komplexeren und abstrakteren Konzepten zu arbeiten, etwa "ein Fleck blauer Himmel" oder "ein Fragment einer Pferdemähne". Eine deutlich detaillierte Erläuterung finden Sie in dem Deep Dive von Joseph V. Thomas auf Medium.

Auch wenn Thomas ebenso wie OpenAI im Kontext der Bilderzeugung von GPT-4o ausschließlich von autoregressiver Generation spricht, spekulieren unter anderem Yan et al., dass die Architektur einen "Diffusionskopf" haben könnte. Dabei erzeugt das AR-Modell eine Sequenz von visuellen Token, die als Eingabe für das Diffusionsmodell dienen, welches das endgültige Bild dekodiert.

Sie argumentieren, dass die herausragende Bildqualität, Texturvielfalt und die Fähigkeit, natürliche Szenen zu erzeugen, typische Merkmale von Diffusionsmodellen seien. Zudem führen sie ein "Easter Egg" an, das auf der OpenAI-Webseite zu den Bilderzeugungsfähigkeiten zu finden ist. Dort sieht man im Hintergrund eines Bildes eine Tafel, die zwar von "one big autoregressive Transformer" spricht, unten rechts jedoch den Prozess "Token ⇾ [Transformer] ⇾ [Diffusion] Pixel" zeigt (siehe Titelbild dieses Artikels ganz oben).

Um ihre These zu stützen, haben sie ein eigenes Klassifikationsmodell trainiert, um zwischen Bildern, die aus AR- und Diffusionsmodellen stammen, zu unterscheiden. Dieses Modell klassifizierte die von GPT-4o generierten Bilder konsistent als diffusionsbasiert. Allerdings wäre auch denkbar, dass OpenAI ebendiese typischen positiven Eigenschaften von Diffusionsmodellen auf die AR-Technik übertragen konnte.

Yan et al. haben fĂĽr ihre Untersuchungen von GPT-4o den Benchmark GPT-ImgEval entwickelt, bei dem GPT-4o sowohl alle "klassischen" Bildgeneratoren wie Stable Diffusion (1.5, 2.1, XL, 3) und Dall-E 2 als auch die LLM-gestĂĽtzten AR-Modelle, etwa LlamaGen, Janus(flow) und GoT ĂĽbertrumpfte.

So beeindruckend die GPT-4o-Bilder auch sind, frei von Schwächen ist das Modell nicht. So neigt es dazu, Bilder zu überschärfen. Die Verwendung des Pinselwerkzeugs für lokale Bildbearbeitung zieht mitunter globale Änderungen nach sich, da das gesamte Bild neu generiert wird und nicht nur der zu bearbeitende Teil. Insgesamt neigt GPT-4o zu warmen Farbtönen, bei Motiven mit mehreren Personen unterlaufen auch GPT-4o die typischen Fehler wie verunglückte Posen und unrealistische Objektüberlappungen. Schriften mit Zeichen außerhalb des lateinischen Schriftsystems werden oft fehlerhaft in den Bildern dargestellt.

Beispiele: Bilderzeugung mit GPT-4o (7 Bilder)

Es muss nicht immer Studio Ghibli sein: Interessanterweise stand bei der Vorlage eine andere Uhrzeit, nämlich die seit zwei Jahren üblichen 17 Uhr. Möglicherweise ein Hinweis auf das Alter des Trainingssets von GPT-4o. (Bild:

Erzeugt mit GPT-4o durch heise online

)

(vza)