KI-Bildgeneratoren: Fantastische neue Welten

Seite 2: Die Prompts

Bilder erhält man durch die Eingabe von so genannten Prompts, in denen man in englischer Sprache möglichst genau angibt, welches Ausgabe man erhalten möchte. Die KI generiert dann ein Set von vier Bildern, aus dem man sich die besten Ergebnisse raussuchen und noch einmal verfeinern lassen kann. Das Ergebnis kann man dann speichern und unbegrenzt weiter nutzen. Ein großer Vorteil:

Das generierte Bild ist urheberrechtsfrei und kann uneingeschränkt verwendet werden. Ich habe mir angewöhnt, ab und an immer mal wieder ein paar Prompts einzugeben und irgendwann mal nachzusehen, ob die Bilder etwas geworden sind. Die Ausgabe der Bilder dauert im teuren „Fast-Modus“ etwa 60 Sekunden, im „Relaxed-Mode“ kann es auch mal ein paar Minuten dauern.

Mein Antrieb zur Nutzung der KI-Engine war es, Grafiken zu generieren, die ich für meine Vorträge nutzen kann. Die Visualisierung von Bildern im Bereich Datenschutz und IT-Recht war immer schwierig. Bald hatte ich Blut geleckt und mir einen bezahlten Account angelegt, der am Anfang sehr viele arme missgestaltete Katzen ausgeworfen hat. Allerdings ist die Entwicklung der Qualität der Bilder derzeit atemberaubend. Spätestens in der Version 5 spuckt die KI Bilder aus, die nur noch bei sehr genauem Hinblick von Fotos zu unterscheiden sind.

Die rasante Evolution der KI-Katzenbilder.

(Bild: KI / Prompt von Jörg Heidrich )

Der Nutzen

Bei der Nutzung über Discord wird man seine Bilder zunächst einmal in öffentlichen Anfänger-Kanäle erzeugen. Dort kann sie jeder sehen, aber man hat auch den großen Vorteil, dass man die Versuche der anderen Nutzer sehen und daraus lernen kann. Fortgeschrittene User nutzen die Kommunikation mit dem Midjourney-Bot, in dessen Rahmen nur die eigenen Bilder zu sehen sind.

Der Bot von Midjourney zeigt einem die eigenen Bilder, in einem sepertaen Kanal auf den man nur selbst Zugriff hat.

(Bild: Screenshot Jörg Heidrich )

Lernen durch viel Ausprobieren

An ambitionierteren Bilder zu arbeiten habe ich durch den großartigen „Additive Prompting“-Kurs gelernt, den Nick St. Pierre kostenlos auf Twitter anbietet. Darin zeigt er, wie man die KI wie eine Kamera benutzten kann: Man kann angeben, welcher Film genutzt werden soll, die Position der Kamera, die Beleuchtung – und natürlich den Inhalt des Bildes und die Stimmung.

Für das Bild, das letztlich in der c’t Fotografie erschienen ist, gibt es einen Grund-Prompt:

street style photo of a woman, shot on [FILM TYPE] --v 5

Auf Basis von dieser Eingabe kann man die Bilder individualisieren und zusätzliche Beschreibungen der gewünschten Stimmung verarbeiten. Ich bin ein Freund der Polaroid-Optik und mag Japan, daher habe ich diese Eingabe ausprobiert:

street style photo of a young woman, walking through Tokyo in the rain, wearing a black dress, shot on Modern Polaroid Film --ar 16:9 --v 5

Das veröffentlichte Bild ist so in etwa der zehnte Versuch. Vor allem der Herr rechts im Bild erwies sich anfangs als sehr widerspenstig bei dem Versuch, den Schirm auch in der Hand zu halten und ihn nicht frei schweben zu lassen. Midjourney bietet die Möglichkeit, teilweise missglückte Bilder noch einmal berechnen zu lassen, um bessere Ergebnisse zu erzielen.

Prompts nach dem oben genannten Muster funktionieren bei meinen Versuchen ziemlich gut. Sie haben die folgende Struktur:

[Art des Fotos, z.B. photo from a fashion magazin][Inhalt: A beautiful old Woman with wrinkles and laugh lines][Ergänzende Beschreibung: walking a cute Labrador dog in Central Park in New York][Stimmung: warm, sunny, relaxed][Effekte: sunflares][Film: shot on Fujifilm Superia 400][--ar 16:9 aspect ration][--v 5.1 Version 5]