Spiralförmige Städte: Bild-KI beeindruckt mit ungewöhnlicher Darstellung

Ein Reddit-Nutzer zeigt KI-erzeugte Bilder, bei denen geometrische Formen wie Spirale oder Schachbrett neuen Bildern Stil von Gemälden zugrunde liegen.

101

Das von KI erzeugte "Spiral-Dorf" im Original (mit Stable Diffusion und ControlNet).

(Bild: Ars Technica)

17.09.2023, 13:13 Uhr

Lesezeit: 6 Min.

Von

Benj Edwards
Ars Technica

Am vergangenen Sonntag (10. September) veröffentliche der Reddit-Nutzer "Ugleh" ein KI-generiertes Bild eines spiralförmigen mittelalterlichen Dorfes, das in den sozialen Medien aufgrund seiner erstaunlichen geometrischen Eigenschaften viel Aufmerksamkeit erlangte. Nachfolgende Beiträge des Nutzers erhielten sogar noch mehr Lob, einschließlich eines Tweets mit über 145.000 Likes. Ugleh erstellte die Bilder mithilfe von Stable Diffusion und einer Steuerungstechnik namens ControlNet.

Die Reaktionen auf das Bild im Netz reichten von Verwunderung und Erstaunen bis zu Anerkennung für die Entwicklung von etwas Neuem in der generativen KI-Kunst. "Solche Bilder habe ich noch nie gesehen. Etwas Neues in der Welt der Kunst", schrieb ein X-Nutzer (vormals Twitter). "Ich habe schon sehr viel KI-Kunst gesehen, ich bin schon sehr lange in diesem Bereich tätig, und das ist eines der großartigsten Werke, die ich je gesehen habe. Das hast du so gut gemacht", schrieb die KI-Künstlerin Kali Yuga auf X.

Paul Graham, Mitbegründer des Gründerzentrums Y-Combinator und häufiger Kommentator von Technikthemen in den sozialen Medien, schrieb: "Das war der Punkt, an dem KI-generierte Kunst für mich den Turing-Test bestanden hat." Graham bezog sich zwar auf den Turing-Test (der angeblich prüft, ob das Verhalten einer Maschine nicht von dem eines Menschen zu unterscheiden ist) als Metapher und nicht wörtlich, aber er war eindeutig beeindruckt.

Generative-KI: Spiralförmige Städte (Teil 1) (5 Bilder)

Ein KI-generiertes Bild eines mittelalterlichen Dorfes in Form eines Schachbretts.
(Bild: Ugleh / Stable Diffusion)

Videos by heise

Natürlich war nicht jeder beeindruckt und einige X-Nutzer nahmen die kompositorischen Elemente des KI-generierten Spiraldorfs auseinander: "Es ist schön, aber es gibt viele Entscheidungen, die ein Mensch nicht treffen würde", schrieb ein Grafikdesigner namens Trent. "Viele der Schatten sind nicht korrekt, und die Schornsteine direkt über den Fenstern ergeben keinen Sinn. Beim Heranzoomen sieht man auch das verräterische Muster des Rauschens der KI-Kunst."

Im Juni gab es einen Bericht über eine Technik, bei der das KI-Bildsynthesemodell Stable Diffusion mit ControlNet verwendet wurden, um QR-Codes zu erstellen, die wie echte Kunstwerke aussehen, einschließlich von Anime inspirierter Kunst. Ugleh verwendete dasselbe neuronale Netzwerk, das für die Erstellung dieser QR-Codes (die selbst geometrische Formen sind) optimiert wurde, und fütterte es stattdessen mit einfachen Bildern von Spiralen und Schachbrettmustern.

Bei der Eingabeaufforderung "Medieval village scene with busy streets and castle in the distance (masterpiece:1.4), (best quality) (detailed)" (etwa "Mittelalterliche Dorfszene mit belebten Straßen und Burg in der Ferne") renderte ControlNet Szenen, bei denen die künstlerischen Elemente der Bilder den wahrgenommenen Formen von Spiralen und Schachbrettern entsprechen. In einem Bild wölben sich die Wolken über dem Kopf und die Menschen stehen in einer leichten Kurve, die der Spiralführung entspricht. In einem anderen Bild bilden Quadrate aus Wolken, Hecken, Gebäudegesichtern und einem Wagengespann eine schachbrettartige Szene.

Die Magie von ControlNet

Wie funktioniert das? Wir haben bereits häufig über Stable Diffusion berichtet. Es handelt sich um ein neuronales Netzwerkmodell, das auf Millionen von Bildern aus dem Internet trainiert wurde. Der Schlüssel dazu ist ControlNet, das erstmals in einem Forschungsartikel mit dem Titel "Adding Conditional Control to Text-to-Image Diffusion Models" (etwa "Bedingte Kontrolle bei einem Text-zu-Bild-Diffusion-Modell hinzufügen") von Lvmin Zhang, Anyi Rao und Maneesh Agrawala im Februar 2023 erschien und in der Stable Diffusion-Community schnell populär wurde.

In der Regel wird ein Stable Diffusion-Bild mittels eines Textprompts (genannt text2image) oder eines Bildprompts (img2img) erstellt. ControlNet bietet zusätzliche Hilfestellungen in Form von aus einem Quellbild extrahierten Informationen, einschließlich Erkennung von Körperhaltungen, Abbildung der Tiefe, Normal Mapping, Kantenerkennung und vieles mehr. Mit ControlNet kann ein KI-Grafiker die Form oder Pose eines Objekts in einem Bild viel genauer nachbilden.

Generative-KI: Spiralförmige Städte (Teil 2) (3 Bilder)

Ein Screenshot des ControlNet-Prozesses von Ugleh, mit dem einige der Bilder erstellt wurden.
(Bild: Ugleh)

Mit ControlNet und ähnlichen Prompts ist es einfach, Uglehs Arbeit zu kopieren, und andere haben dies auf amüsante Weise getan, einschließlich schachbrettartiger Anime-Figuren, einer Animation, ein mittelalterliches Dorf als Schock-Bild (überraschend tauglich, um es am Arbeitsplatz anzusehen) und einer mittelalterlichen Dorfversion des Gemäldes "Das Mädchen mit dem Perlenohrgehänge" von Jan Vermeer.

Trotz der großen Aufmerksamkeit und der vielen Angebote, Kunstwerke in NFTs zu verwandeln, hält sich Ugleh vorerst zurück. Auf X schrieb er: "Ich schätze all das positive Feedback zur KI-Kunst, ich habe nicht vor, mit meinen neuesten Erzeugnissen Geld zu verdienen, und ich werde keine offiziellen Interviews geben. Ich bin nur ein normaler, technisch versierter KI-Nerd, der mit einer neuen ControlNet-Technik experimentiert hat."

Wer mit ControlNet experimentieren möchte, findet hier eine gute Anleitung. Außerdem hat Ugleh eine Schritt-für-Schritt-Anleitung, einschließlich der Spiral- und Schachbrettvorlagendateien, auf Imgur veröffentlicht.

Lesen Sie auch

SDXL 1.0: Nachfolger des KI-Bildgenerators Stable Diffusion ist fertig

Das Kunstwerk ist zwar bemerkenswert, aber die derzeitige US-Urheberrechtspolitik lässt vermuten, dass die Bilder nicht die Voraussetzungen für einen Urheberrechtsschutz erfüllen, so dass sie möglicherweise gemeinfrei sind. Während von Künstlicher Intelligenz erzeugte Kunstwerke für viele aus ethischen und rechtlichen Gründen immer noch ein umstrittenes Thema sind, überschreiten kreative Enthusiasten weiterhin die Grenzen dessen, was für einen ungelernten oder unausgebildeten Praktiker mit diesen neuen Werkzeugen möglich ist. Es ist noch ungewiss, ob oder wie das Gesetz jemals den notwendigen menschlichen Funken der Inspiration anerkennen wird, der Werke wie diese möglich macht.

Dieser Artikel erschien ursprünglich auf Ars Technica.