Warum KI-Bildgeneratoren nicht alle Kreativen arbeitslos machen werden

KI-Software kann aus Text ausgefeilte Illustrationen erstellen. Doch Gerüchte über den "Tod der Kunst" sind stark übertrieben.

In Pocket speichern vorlesen Druckansicht 123 Kommentare lesen

Enten im Stil von Picasso, generiert von Craiyon (vormals Dall-E mini).

(Bild: Craiyon)

Lesezeit: 6 Min.
Inhaltsverzeichnis

(This article is also available in English)

Als ich 2013 meinen ersten Artikel über "künstliche Kreativität" geschrieben habe, musste ich noch verdammt viel erklären. Denn den meisten Menschen war nicht klar, warum das überhaupt ein Thema ist. Schließlich war das sogenannte Lovelace-Argument in allen Köpfen – benannt nach Lady Ada Lovelace, der Frau, die die ersten Algorithmen für Charles Babbage und seine "Analytische Maschine" geschrieben hat: Ein Computer kann nichts Neues erschaffen, nur das, was seine Programmierung ihm vorgibt. Warum also über "kreative Maschinen" schreiben, wenn es die gar nicht geben kann.

Mit Dall-E 2, Midjourney oder auch Stable Diffusion dürfte sich dieses Argument erledigt haben: Die KIs machen aus Texten am Fließband die abenteuerlichsten Grafiken. Nicht alle, aber viele Bilder sind nicht nur technisch gut – so gut, dass eines dieser Bilder bereits einen Kunstwettbewerb gewonnen hat. Die Text-zu-Bild-Generatoren erweisen sich auch, was die Interpretation ihrer "Aufträge" angeht, als durchaus einfallsreich. Das geht so weit, dass manche gar den "Tod der Kunst" befürchten – oder zumindest eine Massenarbeitslosigkeit unter Illustratoren, Grafikern und Konzeptkünstlern.

Sicher, die Text-zu-Bild-Generatoren werden in kostenoptimierten Medienproduktionen das eine oder andere Stockfoto ersetzen. Simon Colton von der Queen Mary University London, der sich noch immer mit maschineller Kreativität beschäftigt, sagte mir bereits 2013, dass Software schon bald "für jeden individuell und für jeden Geschmack einmalige, authentische Kunstwerke erzeugen" werde. Und das zu "erschwinglichen Preisen". Aber ist das wirklich das Ende aller Kunst? Um diese Frage zu beantworten, und um die Begrenzung der heute existierenden Bildgeneratoren zu verstehen, hilft in der Tat die Beschäftigung mit "Computational Creativity". Denn obwohl kreative Ideen uns in der Regel ganz plötzlich und unerwartet bewusst werden, fallen sie nicht vom Himmel, sind keine "göttlichen Funken", sondern das Ergebnis kognitiver Prozesse, die sich – zumindest im Prinzip – auch im Computer modellieren und nachbilden lassen.

Eine Analyse von Wolfgang Stieler

Nach dem Studium der Physik wechselte Wolfgang Stieler 1998 zum Journalismus. Bis 2005 arbeitete er bei der c't, um dann als Redakteur der Technology Review zu wirken. Dort betreut er ein breites Themenspektrum von Künstlicher Intelligenz und Robotik über Netzpolitik bis zu Fragen der künftigen Energieversorgung.

Die britische Kognitionsforscherin Margaret Boden von der University of Sussex unterscheidet drei verschiedene Arten von Kreativität: Die kombinatorische, die explorative und die transformatorische Kreativität. Bei der kombinatorischen Kreativität geht es darum, Teile in einer neuen Art und Weise zusammenzusetzen – bei neuen Kochrezepten etwa ungewöhnliche Aromen wie Senf und kandierte Früchte zu kombinieren.

Die "explorative Kreativität" funktioniert schon ein bisschen abstrakter: Hier geht es darum, die impliziten oder expliziten Regeln bei der Erschaffung eines Artefaktes – ein Text, ein Bild, eine Skulptur, ein Rezept – zu verstehen, und weiterzuspinnen. Ein Haiku zum Beispiel, ein kurzes, japanisches Gedicht, besteht in deutscher Übersetzung aus – meist – siebzehn Silben, die auf drei Zeilen aufgeteilt sind: Die erste Zeile hat fünf Silben, die zweite Zeile sieben Silben und die dritte Zeile fünf Silben. Das Gedicht ist im Präsens geschrieben, und thematisiert konkrete Gegebenheiten und Augenblicke – oft die Natur oder Jahreszeiten – während Gefühle nicht direkt beschrieben, sondern nur indirekt vermittelt werden. Nach diesem Schema lassen sich unendlich viele Gedichte generieren, wie mögliche Züge in einem Schachspiel.

Die "transformative Kreativität" spielt sich auf einer noch abstrakteren Ebene ab: Hier "spielt" der Kreative – Mensch oder Maschine – mit den Regeln des kreativen Kochrezeptes, lässt einzelne Regeln aus, erfindet neue, oder modifiziert sie. Der "Konzeptraum", wie Boden das genannt hat, wird dadurch transformiert "und es wird möglich, etwas Neues zu denken, was vorher nicht gedacht werden konnte". Die expressionistischen Malerinnen und Maler beispielsweise erkannten, dass der Gesamteindruck eines Bildes stark von der Hell-Dunkel-Verteilung abhängig ist. Da völlig verschiedene Farben – zum Beispiel blau und grün – ähnliche Tonwerte haben, kann man Farben in einem Bild austauschen, ohne das Gefüge von Hell und Dunkel zu stören. Die Bilder wirken dann verfremdet, aber trotzdem nicht einfach nur bunt, sondern stimmig.

Warum erzähle ich das? Weil das, was die Text-Bild-Generatoren machen, bestenfalls explorativ kreativ ist. Meistens aber nur kombinatorisch. Das, was wir nach Jahrhunderten immer noch bestaunen, der radikale, neue Stoff – oft so neu, dass das Publikum ihn erst mal überhaupt nicht versteht – ist transformativ. Um mit Regeln spielen zu können, muss man aber Zugriff darauf haben – im besten Fall liegen sie in expliziter Form vor. Und das ist bei den Text-Bild-Generatoren nicht der Fall. Die arbeiten mit gelernten, impliziten Darstellungen, die sie dann neu kombinieren und modifizieren. Etwas bahnbrechend Neues entsteht so nicht. Ganz im Gegenteil: Ich würde sogar behaupten, der größte Teil von dem, was in den sozialen Medien grade gefeiert wird, ist eine spezifische Art von Nerd-Kitsch, von dem das Publikum schon bald genug haben wird.

Das soll nicht heißen, dass Maschinen diese transformatorische Kreativität niemals meistern. Da gibt es beispielsweise spannende Ideen, wie man lernende Systeme mit regelbasierten Maschinen koppeln kann. So eine Kombination könnte sich als sehr spannend erweisen. Und es gibt die Theorien von Jeff Hawkins darüber, wie unser Gehirn es schafft, aus einzelnen Sinneseindrücken ein abstrahiertes Modell der Welt zu bauen – und einer der Schlüssel dazu sind Sinneseindrücke aus verschiedenen Perspektiven, die miteinander kombiniert werden. Aber das ist eine andere Geschichte, die ein anderes Mal erzählt wird.

(jle)