c't 25/2022
S. 80
Titel
KI-Bildgeneratoren: Funktionsweise
Bild: Albert Hulm

Tauchgang ins Innere

Die Technik hinter KI-Bildgeneratoren

Die Kunstwerke von KI-Bildgeneratoren sind kreativ, inspirierend und überraschend. Um zu verstehen, wie das möglich ist, lohnt sich ein Ausflug in die mathematische Welt der Transformer, Diffusion-Models und Autoencoder.

Von Pina Merkert

Ein Maler, ein Dichter und ein Mathematiker stehen vor einem alten Röhrenfernseher ohne Antenne. Der Fernseher zeigt ein wildes Rauschbild aus schwarzen und weißen Pixeln und die drei diskutieren darüber, was auf dem Bildschirm zu sehen ist. Der Dichter behauptet ständig, Dinge aus einem seiner Gedichte zu erkennen. Der Maler widerspricht und verweist fortwährend auf die Bedeutung von Bildkomposition und Farbe und dass des Dichters Versatzstücke nicht dazu passten. Der Mathematiker schreit immer wieder dazwischen, dass die erwähnten Dinge nun mal gar nichts miteinander zu tun haben.

Diese Szene beschreibt den kreativen Prozess von KI-Bildgeneratoren. Denn die Generatoren bestehen aus mehreren neuronalen Netzen, die gegeneinander arbeiten. Besonders erfolgreich ist eine Kombination aus drei Komponenten: Ein Diffusion-Model (Maler), das keine Ahnung hat, was es darstellen soll, bringt das Wissen um Farbe und Bildkomposition mit und erzeugt Vorschläge für Bilder. Ein Transformer-Sprachmodell (Dichter) übersetzt einen Eingabesatz, „Prompt“ genannt (siehe S. 68), in einige tausend Zahlen, die zusammen den sogenannten „Embedding-Vektor“ bilden. Er soll in einer für das neuronale Netz verarbeitbaren Form darstellen, was der Satz bedeutet. Die beiden Modelle können nicht zusammenarbeiten, weshalb es noch CLIP (den Mathematiker) als Vermittler geben muss, der den Vektor aus dem Transformer liest und dem Diffusion-Model sagt, wo es das Bild ändern soll.

Alle heise-Magazine mit heise+ lesen

3,99 € / Woche

Ein Abo, alle Magazine: c't, iX, Mac & i, Make & c't Fotografie

  • Alle heise-Magazine im Browser und als PDF
  • Alle exklusiven heise+ Artikel frei zugänglich
  • heise online mit weniger Werbung lesen
  • Vorteilspreis für Magazin-Abonnenten
Jetzt unbegrenzt weiterlesen Vierwöchentliche Abrechnung.

Alle Ausgaben freischalten

2,95 € 0,25 € / Woche

Nach Testphase 2,95 € wtl.

  • Zugriff auf alle c't-Magazine
  • PDF-Ausgaben zum Herunterladen
  • Zugriff in der c't-App für unterwegs
Jetzt testen Nach Testphase jederzeit monatlich kündbar.

Ausgabe einmalig freischalten

5,90 € / Ausgabe

Diese Ausgabe lesen – ohne Abobindung

  • Sicher einkaufen im heise shop
  • Magazin direkt im Browser lesen
  • Dauerhaft als PDF behalten

Kommentieren