KI-Bildgeneratoren: Diese Technik steckt dahinter
Kunstwerke von KI-Bildgeneratoren sind kreativ und ĂĽberraschend. Ein Ausflug in die mathematische Welt der Transformer, Diffusion-Models und Autoencoder.
Ein Maler, ein Dichter und ein Mathematiker stehen vor einem alten Röhrenfernseher ohne Antenne. Der Fernseher zeigt ein wildes Rauschbild aus schwarzen und weißen Pixeln und die drei diskutieren darüber, was auf dem Bildschirm zu sehen ist.
Der Dichter behauptet ständig, Dinge aus einem seiner Gedichte zu erkennen. Der Maler widerspricht und verweist fortwährend auf die Bedeutung von Bildkomposition und Farbe und dass des Dichters Versatzstücke nicht dazu passten. Der Mathematiker schreit immer wieder dazwischen, dass die erwähnten Dinge nun mal gar nichts miteinander zu tun haben.
Diese Szene beschreibt den kreativen Prozess von KI-Bildgeneratoren. Denn die Generatoren bestehen aus mehreren neuronalen Netzen, die gegeneinander arbeiten. Besonders erfolgreich ist eine Kombination aus drei Komponenten: Ein Diffusion-Model (Maler), das keine Ahnung hat, was es darstellen soll, bringt das Wissen um Farbe und Bildkomposition mit und erzeugt Vorschläge für Bilder.
Das war die Leseprobe unseres heise-Plus-Artikels "KI-Bildgeneratoren: Diese Technik steckt dahinter". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.