KI-Bildgeneratoren: Was sie können und wie man sie einsetzt

Seite 2: Datenquelle: Internet

Inhaltsverzeichnis

Wie alle nennenswerten KI-Errungenschaften der letzten Jahre funktionieren auch die Bildgeneratoren nur deswegen so gut, weil sie mit immens großen Datensätzen trainiert wurden. Firmen wie OpenAI und Google durchforsten das Internet auf der Suche nach Bildern und zugehörigen Textbeschreibungen. Das können Bildunterschriften von Online-Artikeln sein, Beschreibungen der Künstler auf Plattformen wie Instagram oder ArtStation oder auch der Inhalt des alt-Attributs beim img-Tag beliebiger HTML-Seiten.

Die Beschreibungen sind von sehr unterschiedlicher Qualität. Manchmal umschreiben ein oder zwei Sätze den Bildinhalt für blinde Webseitenbesucher. Fotografen geben mitunter Details zur verwendeten Kamera und zum Objektiv an. Maler nennen einen Bildtitel und dokumentieren, ob sie mit Ölfarben oder digital gearbeitet haben.

Manchmal hat das Trainingsmaterial aber auch das Potenzial, die KI auf einen Holzweg zu führen. Tweets zum Beispiel verstecken im Zusammenspiel zwischen Bild und Text gerne mal Witze. Ironie, Verneinungen, Rechtschreibfehler und Irrtümer: Es gibt viele Möglichkeiten, einer KI Schwierigkeiten zu bereiten.

Die knappen, mitunter widersprüchlichen und in die Irre führenden Textbeschreibungen sind einer der Gründe dafür, dass es eine Wissenschaft für sich ist, Formulierungen zu finden, mit denen man den KIs Bilder entlockt, die den eigenen Vorstellungen entsprechen. Der Fachbegriff für diesen Prozess lautet Prompt Engineering, weil die Entwickler der KI-Modelle den Eingabesatz "Prompt" nennen.

Wir haben verschiedene Generator-KIs mit Dutzenden Prompts gefüttert und unsere Erfahrungen zusammengefasst. Unsere Tipps zeigen Ihnen, worauf Sie bei der Formulierung von Prompts achten sollten, um bei Ihren Versuchen mit Stable Diffusion, Midjourney & Co. schneller zu ansehnlichen Ergebnissen zu kommen.