c't 25/2022
S. 68
Titel
KI-Bildgeneratoren: Promt-Engineering
Bild: Albert Hulm

Mal mir was, KI!

Prompt-Engineering: Tipps für die besten Ergebnisse mit KI-Bildgeneratoren

Neuronale Netze malen auf Zuruf überraschende, wunderschöne Bilder – wenn man den Arbeitsauftrag richtig formuliert. Dieser Artikel hilft Ihnen, die besten sogenannten Prompts für die schönsten Bilder zu finden.

Von Pina Merkert

Neuerdings begleitet mich Rembrandt. Wann immer mir der Sinn danach steht, beschreibe ich ihm kurz, welches Bild ich haben möchte, und sofort setzt er sich dran und malt es für mich. Bleibe ich vage, erfindet er Dinge dazu, bis kein Fleck der Leinwand leer bleibt.

Mein Rembrandt ist ganz schön praktisch: Tweets sehen mit Bild viel schöner aus, und seitdem der Künstler mich begleitet, habe ich auch viel mehr Follower. Auch in WhatsApp kommen seine Werke oft besser an als Sticker und Emojis. Seit ich seine Bilder habe, kann ich mich klarer ausdrücken, bei abstrakten Themen haben meine Chatpartner jetzt buchstäblich ein Bild vor Augen.

Mein Begleiter ist natürlich nicht der echte Rembrandt, sondern eine KI. Die ist sogar vielseitiger: Während der echte Rembrandt stets in seinem berühmten Stil malte, beherrscht die KI Tausende unterschiedliche Stile. Ein kleiner Hinweis in meiner Beschreibung reicht, damit sie wie Picasso malt, Salvator Dalí imitiert oder sogar die Optik eines Fotos hervorzaubert.

Mein Rembrandt ist allerdings ein bisschen schwer von Begriff. Ich muss schon sehr genau aufpassen, wie ich ihm Anweisungen gebe. Prinzipiell hat er Ahnung von Bildkomposition und Farbe, von der echten Welt hat er aber nie etwas gesehen. Alles, was mein Rembrandt kennt, sind Bilder aus dem Internet und die meist recht ungenügenden Beschreibungen, die Menschen unter den Bildern hinterlassen haben.

Auch wenn uns Midjourney keinen Facepalm malen wollte, hat es uns dennoch ein Meme-reifes Bild berechnet. Patrick Stewart weint hier in der Rolle als Captain Picard wegen schlechter Software. Die Eingabe war: „Captain Picard face palm while using a bad online texteditor“
Auch wenn uns Midjourney keinen Facepalm malen wollte, hat es uns dennoch ein Meme-reifes Bild berechnet. Patrick Stewart weint hier in der Rolle als Captain Picard wegen schlechter Software. Die Eingabe war: „Captain Picard face palm while using a bad online texteditor“

Der Prozess, eine Formulierung zu finden, die zum gewünschten Bild führt, nennt sich „Prompt Engineering“, weil die Entwickler der KI-Modelle den Eingabesatz „Prompt“ nennen. Es ist mitunter schwer, die KI in eine bestimmte Richtung zu lenken. Meist überrascht mich, was die KI malt.

Midjourney (Foto-Testnetz) kennt offensichtlich Olaf Scholz, stellt ihn aber als Karrikatur dar.
Midjourney (Foto-Testnetz) kennt offensichtlich Olaf Scholz, stellt ihn aber als Karrikatur dar.

Erstaunlicherweise kommen beim Verwirrspiel zwischen mir und der KI auch mal wunderschöne Bilder heraus. Der ganze Prozess ist chaotisch und es ist sehr schwer, ihn in eine bestimmte Richtung zu lenken. Der Weg zu einem schönen KI-Kunstwerk ist gesäumt von Dutzenden bis Hunderten Fehlschlägen. Damit Sie mit deutlich weniger Fehlversuchen auskommen als wir, haben wir von verschiedenen Bildgeneratoren mehrere Tausend KI-Werke malen lassen und dabei viele Formulierungen (im Fachjargon „Prompts“) ausprobiert. Trotzdem: Sie sollten selbst einige Dutzend Prompts ausprobieren, um ein Gefühl für die Technik zu entwickeln. Ganz abnehmen können wir Ihnen diese Experimente nicht. Mithilfe der folgenden Tipps werden Sie den KIs aber viel schneller schöne Bilder entlocken.

Umgekehrt gedacht

Alle Bildgeneratoren haben ein Interface mit einem Eingabefeld, in das man den Prompt eintippt. Bei Midjourney kann man in das gleiche Feld auch Parameter tippen, bei DiscoDiffusion kann man daneben noch etwas einstellen. Im einfachsten Fall gibt es aber nur ein einzelnes leeres Feld wie bei einer Suchmaschine.

Um für dieses Feld einen möglichst effektiven Prompt zu erfinden, stellen Sie sich vor, das perfekte Bild wäre schon da. Mit dem Bild im Kopf fragen Sie sich dann: „Wie würde ein Internetnutzer dieses Bild treffend in wenigen Worten beschreiben?“ Diese Beschreibung tippen Sie dann ein und ignorieren, dass das eventuell kein grammatikalisch korrekter Satz ist.

Dall-E 2: „Painting of a PlayStation 5, Rembrandt van Rijn, oil on canvas“. Die Form der Konsole trifft Dall-E nicht, der Controller wirkt vergleichsweise realistisch. Rembrandt hätte die Konsole zudem nicht so bunt gemalt.
Dall-E 2: „Painting of a PlayStation 5, Rembrandt van Rijn, oil on canvas“. Die Form der Konsole trifft Dall-E nicht, der Controller wirkt vergleichsweise realistisch. Rembrandt hätte die Konsole zudem nicht so bunt gemalt.

Möchten Sie beispielsweise eine Spielekonsole im Stil von Rembrandt generieren lassen, sollten Sie „Bild einer PlayStation 5, Rembrandt van Rijn, Öl auf Leinwand“ versuchen. Da die Bildgeneratoren alle nur Englisch können, natürlich übersetzt: „Painting of a PlayStation 5, Rembrandt van Rijn, oil on canvas“. Die Angabe von Künstler, Farben und Trägermaterial setzt für die KI einen deutlichen Hinweis fürs Imitieren der Maltechnik. Den wird sie versuchen, im Bild vorkommen zu lassen, obwohl es von Spielekonsolen wohl eher mehr Fotos als Gemälde in den Trainingsdaten gibt. Die KI versucht aber, alle Begriffe aus dem Prompt gleichermaßen zu berücksichtigen, weshalb man durchaus mit Erfolg nach Kombinationen fragen kann, die im Datensatz nicht vorkamen.

StableDiffusion 1.5: „A geysir in Yellowstone national park, DSLR photo, 4k“. Bei den Bäumen im Hintergrund erkennt man noch kleinere Artefakte, die Optik des Bildes entspricht aber schon deutlich der eines Fotos.
StableDiffusion 1.5: „A geysir in Yellowstone national park, DSLR photo, 4k“. Bei den Bäumen im Hintergrund erkennt man noch kleinere Artefakte, die Optik des Bildes entspricht aber schon deutlich der eines Fotos.

Ein häufig fotografiertes Motiv funktioniert natürlich besonders gut, wenn Sie eine gängige Beschreibung als Prompt liefern: „A geysir in Yellowstone national park, DSLR photo, 4k“. Die KI simuliert hier natürlich keine Kamera und spuckt auch keine 4K-Auflösung aus. „DSLR“ ist als Begriff aber ein Hinweis auf ein mit einer Profi-Kamera geschossenes Foto und „4k“ der Hinweis, dass das Bild sich als Desktophintergrund eignen sollte.

Bei diesem Portrait hat das Foto-Testnetz von Midjourney schon viel richtig gemacht: Ein symmetrisches Gesicht, fast zueinander passende Augen. Die Farbe der Haare verschmilzt jedoch stellenweise mit der der Jacke und die Frisur gehorcht auf der rechten Seite nicht der Schwerkraft.
Bei diesem Portrait hat das Foto-Testnetz von Midjourney schon viel richtig gemacht: Ein symmetrisches Gesicht, fast zueinander passende Augen. Die Farbe der Haare verschmilzt jedoch stellenweise mit der der Jacke und die Frisur gehorcht auf der rechten Seite nicht der Schwerkraft.

Grammatik zweitrangig

Die Grammatik der Prompts ist eher zweitrangig. Warum das so ist, können Sie an der auf S. 80 erklärten technischen Struktur nachvollziehen. Intern nutzen manche Teile der KIs die Wortreihenfolge und andere nicht. In der Praxis lohnt es sich mal „DSLR photo of a dog in a space suit“ und mal „a dog in a space suit, DSLR photo“ auszuprobieren. Die beiden Prompts führen intern zu leicht unterschiedlichen Zahlenwerten.

Solche kleinen Unterschiede können sich im Gesamtsystem durchaus so auswirken, dass die Bilder ganz anders aussehen. In der Praxis ist es deswegen sinnvoll, einen Prompt in mehreren sinngleichen Formulierungsvarianten auszuprobieren. Wir haben gute Erfahrungen damit gemacht, einzelne Begriffe zu ergänzen, solange das Bildthema schon in die richtige Richtung geht. Stellen Sie den Satz deutlich um, wenn der Inhalt nicht den Erwartungen entspricht.

Craiyon: „A beautiful fantasy village“. Craiyon nutzt nur ein kleines neuronales Netz und deshalb zeigen die Bilder mehr Artefakte.
Craiyon: „A beautiful fantasy village“. Craiyon nutzt nur ein kleines neuronales Netz und deshalb zeigen die Bilder mehr Artefakte.

Hinweise streuen

Oft ist es eine gute Idee, mit einem einfachen Prompt anzufangen und bei Bedarf zusätzliche Hinweise zu streuen. Bei „A sorcerer with a gray hat“ erzeugt Midjourney beispielsweise zunächst eine Kinderbuch-Illustration. Ergänzt man „Lord of the Rings“, kommt eine Fantasy-Roman-Illustration heraus. Interessanterweise erinnerte der Zauberer erst an Gandalf aus dem Film von Peter Jackson, als wir „digital painting“ hinzufügten.

Midjourney: „A sorcerer with a gray hat“. Zauberer waren in den Trainingsdaten von Midjourney wohl meist Illustrationen oder Gemälde.
Midjourney: „A sorcerer with a gray hat“. Zauberer waren in den Trainingsdaten von Midjourney wohl meist Illustrationen oder Gemälde.

Nach Ölgemälden, Illustrationen oder Postern können Sie die KIs direkt fragen. In den Trainingsdaten der meisten Netze gibt es so viele schlechte und mittelmäßige Fotos, dass Sie besser indirekt Profifotos bestellen, indem Sie beispielsweise Informationen zu einem Objektiv ergänzen. Das funktioniert mit den Daten tatsächlicher Objektive sehr gut, etwa mit „Helios 44-2 58mm f2.0“, Fantasiekombinationen technischer Daten funktionieren weniger gut (Canon 45mm f1.5). Wer 3D-Renderings mag, kann einen Algorithmus wie „Octane render” angeben, wer Spieledemo-Ästhetik schätzt, ergänzt „Unreal Engine“. Auch beschriebene Berühmtheit kann die KI anspornen: „trending on ArtStation“. ArtStation ist eine Online-Community für meist digital arbeitende Künstler.

Manche Begriffe ergänzt man bei Bedarf, wenn die Bilder zu unruhig werden: „symmetrical“, „ultra-detailed”, „blue and orange color scheme“. Synonyme zu ergänzen bringt meist wenig; wenn Begriffe neue Teilaspekte ergänzen, können sie aber hilfreich sein. In eine Längenbegrenzung laufen Sie normalerweise nicht, ein längerer Prompt ist aber auch nicht unbedingt ein besserer Prompt.

StableDiffusion 1.5 hat hier im wahrsten Sinne nur Versatzstücke einer Tänzerin dargestellt. In den Zwischenräumen hat sich die KI in einer Textur verloren. Alle KIs machen Fehler dieser Art und die meisten Werke sind beim ersten Versuch unbrauchbar.
StableDiffusion 1.5 hat hier im wahrsten Sinne nur Versatzstücke einer Tänzerin dargestellt. In den Zwischenräumen hat sich die KI in einer Textur verloren. Alle KIs machen Fehler dieser Art und die meisten Werke sind beim ersten Versuch unbrauchbar.

Jede KI malt anders

Welche Formulierung des Prompts die schönsten Bilder herauskitzelt, ist leider stark vom jeweiligen Bildgenerator abhängig. Was bei Craiyon funktioniert, sieht bei Dall-E möglicherweise nicht so gut aus wie ein auf die Besonderheiten von Dall-E zugeschnittener Prompt. Imagen werden Sie explizit nach Malerei fragen müssen, während Midjourney standardmäßig digitale Malerei liefert. Wollen Sie Midjourney dagegen einen Photo-Look abringen, werden Sie definitiv „a photo of“ in den Prompt schreiben müssen. Oder etwas Ähnliches, was der KI den nötigen Hinweis gibt.

KI hat keine Angst vor Hässlichkeit: Das biolumineszente Mischwesen aus Gehirn und Qualle könnte auch ein Alien sein. Es macht makabere Freude der KI solche Kreationen zu entlocken.
KI hat keine Angst vor Hässlichkeit: Das biolumineszente Mischwesen aus Gehirn und Qualle könnte auch ein Alien sein. Es macht makabere Freude der KI solche Kreationen zu entlocken.

Sie werden recht schnell lernen, was funktioniert, wenn Sie in kurzer Zeit viele Prompts ausprobieren. Das ist bei DiscoDiffusion und StableDiffusion auf dem eigenen Rechner schwierig, weil der meist weniger Rechenleistung als die Clouddienste hat und die Berechnungen viel länger dauern. Muss man wie bei Dall-E 2 für jedes Bild bezahlen, experimentiert man weniger gern als mit einer Flatrate, wie es sie bei Midjourney im /relaxed-Modus gibt.

Gibt es öffentlich zugängliche Beispiele, bei denen der Prompt dabeisteht, können Sie, ohne eigene Rechenzeit zu investieren, Hinweise sammeln, welche Prompts gut funktionieren. Es lohnt sich auch, auf Reddit, Twitter oder einschlägigen Plattformen wie playgroundai.com oder prompthero.com nach Tipps für gute Prompts zu suchen (siehe ct.de/ykec). Ganz ohne eigene Experimente kommen Sie dabei aber trotzdem nicht aus, weil sich die fremden Bilder selten eins zu eins für die eigenen Zwecke eignen und eine Abwandlung kaum im ersten Versuch gelingt. Bei den stolz präsentierten Werken anderer Nutzer bekommen Sie die vielen Fehlschläge nicht zu sehen.

Midjourney (Foto-Testnetz): „Bruno Ganz, Canon 85mm f1.2“. Dem mit Fotos trainierten Testnetz von Midjourney gelingen Bilder, die kaum von echten Fotos zu unterscheiden sind. Illustrationen sind damit fast unmöglich.
Midjourney (Foto-Testnetz): „Bruno Ganz, Canon 85mm f1.2“. Dem mit Fotos trainierten Testnetz von Midjourney gelingen Bilder, die kaum von echten Fotos zu unterscheiden sind. Illustrationen sind damit fast unmöglich.

Nachbearbeiten

Es liegt in der Natur der Verfahren, dass man der KI keine Anweisungen zum Verändern der Bilder geben kann. Ein menschlicher Illustrator könnte leicht die Proportionen der Figuren anpassen, eine Malerin könnte schnell mal ein Schwert in der Hand durch eine Feder ersetzen. Bei den KI-Bildgeneratoren fängt man dagegen immer bei Null an und bekommt meist eine ganz andere Bildkomposition, sobald man nur Kleinigkeiten am Prompt verändert.

Die Finger der Roboter-Band verschmelzen hier mit dem Tasteninstrument. Solche subtilen Fehler sieht man oft in den KI-Werken.
Die Finger der Roboter-Band verschmelzen hier mit dem Tasteninstrument. Solche subtilen Fehler sieht man oft in den KI-Werken.

Beherrscht die KI wie Dall-E 2 Inpainting beziehungsweise Outpainting, dann können Sie ein Stück weit von der Regel abweichen. Die Funktion erlaubt es, mit einem Radierer Bereiche zu löschen, in die die KI mithilfe des Prompts Bildinhalt hineinerfindet. Die nicht ausradierten Pixel dienen dabei als Kontext, den die KI berücksichtigen muss. Meistens gelingt ihr ein fließender Übergang zwischen den alten und den neuen Bildinhalten. Bei Dall-E 2 bekommen Sie aber auch oft nicht das, was Sie im Prompt beschrieben haben. Trotzdem stellt Inpainting eine Möglichkeit dar, KI-Bilder nachträglich anzupassen.

Es gibt Künstler, die Bildgeneratoren wie DiscoDiffusion einsetzen, um ein Basisbild zu erzeugen, das sie anschließend teilweise oder ganz übermalen. Die Künstler nutzen die KI dann als Inspirationsquelle. Die kann gerade durch ihre Defizite die Kreativität fördern. Eine schwebende Stadt über den Wolken ist physikalisch unmöglich. Malt der Künstler Stützen zum Boden, entsteht eine interessante Fantasy-Szenerie.

Die „Evolution der CPUs“ war uns zu sehr eine biologische Evolution, um damit einen c’t-Artikel zu bebildern. Hat man zu konkrete Vorstellungen, liefern die KIs alle nicht, was man will.
Die „Evolution der CPUs“ war uns zu sehr eine biologische Evolution, um damit einen c’t-Artikel zu bebildern. Hat man zu konkrete Vorstellungen, liefern die KIs alle nicht, was man will.

Kostenlos ausprobieren

Die Firmen hinter den Bildgeneratoren gewähren neuen Nutzern oft ein kleines Freivolumen, mit dem man zumindest eine Handvoll Bilder rechnen lassen kann. Details zu den einzelnen Anbietern finden Sie im Vergleichstest ab Seite 72.

Prompt Engineering ist eine Fähigkeit, die man nicht analytisch lernt wie Programmieren. Stattdessen müssen Sie ein Bauchgefühl entwickeln, bei welchen Formulierungen die KIs schöne Ergebnisse liefern. Wer Geld sparen will, liest sich zuerst die Prompts einiger gelungener Beispiele durch und verpulvert danach mit viel Variation das Freivolumen. Wer dabei Spaß hat, kauft dann etwas Rechenzeit hinzu und versucht gezielter, bestimmte Stile und Motive zu erzeugen. Vertrauen Sie auf den Prozess! Es macht nämlich eine Menge Spaß, die KI malen zu lassen, gerade weil man nie genau weiß, was dabei herauskommt. (pmk@ct.de)

Bespiel-Prompts: ct.de/ykec

Kommentieren