Neue Tools zeigen, wie voreingenommen KI-Bildgeneratoren sind

Voreingenommenheit und Stereotypisierung sind immer noch ein Problem für Systeme wie DALL-E 2 und Stable Diffusion. Reichen die Bemühungen der Anbieter?

50

(Bild: Stable Diffusion, Dalle-2)

29.03.2023, 11:27 Uhr

Lesezeit: 7 Min.

MIT Technology Review

Von

Melissa Heikkilä

Neue Tools zeigen, wie voreingenommen KI-Bildgeneratoren sind

KI-Bildgeneratoren haben ein bekanntes Problem: Sie scheinen dazu zu neigen, Vorurteile und Stereotypen zu verstärken. Doch wie groß ist dieses Problem tatsächlich? Mit Hilfe neuer interaktiver Online-Werkzeuge soll es nun möglich werden, sich selbst ein klares Bild davon zu verschaffen.

Mit den Tools, die von Forschern des KI-Start-ups Hugging Face und der Universität Leipzig entwickelt wurden und in einem Preprint beschrieben werden, kann man den Bias von drei beliebten KI-Modellen zur Bilderzeugung untersuchen: DALL-E 2 und die beiden jüngsten Versionen von Stable Diffusion.

Videos by heise

Um die Werkzeuge zu erstellen, verwendeten die Forscher zunächst die drei KI-Bildmodelle, um 96.000 Bilder von Menschen verschiedener Ethnien, Geschlechter und Berufe zu erzeugen. Das Team bat die Modelle, eine Reihe von Bildern zu erstellen, die auf sozialen Attributen basieren, beispielsweise "eine Frau" oder "spanisch", und dann eine andere Reihe von Bildern, die sich auf Berufe und Personenbeschreibungen beziehen, wie z.B. "ehrgeiziger Klempner" oder "mitfühlender CEO".

"CEO" und "Director"

Diese erzeugten Bilder untersuchten die Forscher weiter. Sie wollten herausfinden, wie sich die beiden Gruppen von Bildern unterschieden. Dazu wendeten sie eine Technik des maschinellen Lernens auf die Bilder an, die sich Clustering nennt. Damit wird versucht, Muster in den Bildern zu finden, ohne ihnen tatsächliche Kategorien wie "Geschlecht" oder "ethnische Zugehörigkeit" zuzuordnen. So konnten die Forscher die Ähnlichkeiten zwischen verschiedenen Bildern analysieren, um zu sehen, welche Personen das jeweilige Modell zusammenfügt, z. B. Personen in Machtpositionen. Anschließend entwickelten die Forscher interaktive Tools, die es jedem ermöglichen, die von diesen KI-Modellen erzeugten Bilder und alle darin enthaltenen Bias-Probleme zu untersuchen. Die Tools sind auf der Website von Hugging Face frei zugänglich.

Nach der Analyse der von DALL-E 2 und Stable Diffusion erzeugten Bilder stellten sie fest, dass die Modelle dazu zu neigen scheinen, verstärkt Bilder von Menschen zu erzeugen, die weiß und männlich aussehen, insbesondere wenn sie gebeten werden, "Menschen in Machtpositionen" darzustellen. Dies galt insbesondere für DALL-E 2, das bei Aufforderungen wie "CEO" oder "Director" in 97 Prozent der Fälle weiße Männer erzeugte. Das liegt wohl daran, dass diese Modelle auf enormen Datenmengen und Bildern aus dem Internet trainiert wurden – ein Prozess, der Stereotypen in Bezug auf Ethnie und Geschlecht nicht nur widerspiegelt, sondern noch verstärken könnte.

Dank dieser Tools muss man das allerdings nicht einfach nur glauben, man kann die Vorurteile selbst sehen. Mit einem der Werkzeuge kann man zum Beispiel die von der KI generierten Bilder verschiedener Gruppen, wie z. B. schwarzer Frauen, vergleichen, um zu sehen, wie gut sie statistisch gesehen mit der Vertretung schwarzer Frauen in verschiedenen Berufen übereinstimmen. Mit einem anderen der Werkzeuge können KI-generierte Gesichter von Menschen in einem bestimmten Beruf analysiert und zu einer "durchschnittlichen Darstellung" von Bildern für diesen Beruf kombiniert werden.

Lesen Sie auch

Wie macht man KI-Modelle weniger voreingenommen? Man bittet sie

Prompt ändert viel

Mit einem weiteren Werkzeug kann man sehen, wie sich die Bilder, die das KI-Modell ausspuckt, verändern, wenn man verschiedene Adjektive an eine Eingabeaufforderung (Prompt) anhängt. In diesem Fall spiegelten die Ergebnisse der Modelle dann überwiegend stereotype Geschlechtervorurteile wider. Wenn man Adjektive wie "mitfühlend", "emotional" oder "sensibel" zu einem Prompt hinzufügt, die einen Beruf beschreibt, erzeugt das KI-Modell häufiger eine Frau als einen Mann. Im Gegensatz dazu führt die Angabe von Adjektiven wie "stur", "intellektuell" oder gar "unvernünftig" in den meisten Fällen zu Bildern von Männern.

Die Forscher haben auch ein Tool entwickelt, mit dem man sehen kann, wie die KI-Modelle verschiedene Ethnien und Geschlechter darstellen. Wenn zum Beispiel die Aufforderung "Native American" eingegeben wird, erzeugen sowohl DALL-E 2 als auch Stable Diffusion Bilder von Menschen mit traditionellen Kopfbedeckungen indigener Menschen. "In fast allen Darstellungen der amerikanischen Ureinwohner trugen sie traditionelle Kopfbedeckungen, was im wirklichen Leben natürlich nicht immer der Fall ist", sagt Sasha Luccioni, die KI-Forscherin, die das Projekt bei Hugging Face leitete.

Interessanterweise stellten die Forscher mittels der Werkzeuge auch fest, dass bildgebende KI-Systeme dazu neigen, weiße nicht-binäre Menschen fast identisch darzustellen, aber mehr Variationen in der Art und Weise zeigten, wie sie nicht-binäre Menschen anderer Ethnien darstellen, so Yacine Jernite von Hugging Face, der an dem Projekt mitarbeitete. Eine Theorie, warum das so sein könnte, ist, so vermutet es Jernite, dass nicht-binäre Menschen nicht-weißer Hautfarbe in letzter Zeit häufiger in den Medien zu sehen waren. Das wiederum bedeutet, dass ihre Bilder häufiger in den Datensätzen landen, die die KI-Modelle zum Training verwenden.

Korrekturen in den Modellen

OpenAI, die Macher hinter DALL-E 2 (und ChatGPT), und Stability.AI, das Unternehmen, das Stable Diffusion entwickelt hat, gaben an, dass mittlerweile Veränderungen eingeführt wurden, um den Bias der Systeme abzuschwächen. Dazu werden bestimmte Prompts blockiert, die womöglich beleidigende Bilder erzeugen. Die Werkzeuge von Hugging Face zeigen jedoch, wie begrenzt diese Korrekturen sind.

Ein Sprecher von Stability.AI teilte mit, dass das Unternehmen seine Modelle auf "länder- und kulturspezifische Datensätze" trainiert und fügte hinzu, dass dies "dazu dienen sollte, Verzerrungen aufgrund von Überrepräsentation in allgemeinen Datensätzen abzuschwächen". Ein Sprecher von OpenAI äußerte sich nicht speziell zu dem Projekt, verwies aber auf einen Blogbeitrag, in dem erklärt wird, wie das Unternehmen verschiedene Techniken in DALL-E 2 eingebaut hat, um Vorurteile sowie sexuelle und gewaltvolle Bilder herauszufiltern.

Lesen Sie auch

Sperma und Gebärmutter: Midjourney sperrt Begriffe rund um die Fortpflanzung

Bias wird zu einem immer dringlicheren Problem, da die KI-Modelle immer mehr Verbreitung finden und immer realistischere Bilder produzieren. Sie werden bereits in einer Reihe von Produkten eingesetzt, z. B. bei der Schaffung von Stockfotos.

Bias selbst erkennen

Hugging-Face-Forscherin Luccioni sagt, sie sei besorgt, dass die Modelle problematische Vorurteile in großem Umfang verstärken könnten. Sie hofft, dass die von ihr und ihrem Team entwickelten Werkzeuge mehr Transparenz in die bildgenerierenden KI-Systeme bringen. Es sei wichtig, gegen den Bias anzugehen.

Ein Teil des Problems könnte darin bestehen, dass die Modelle auf vorwiegend US-amerikanische Daten trainiert werden, was bedeutet, dass sie die dortigen Assoziationen, den Bias, Werte, Kultur und Vorurteile widerspiegeln, meint Aylin Caliskan, außerordentliche Professorin an der University of Washington, die sich mit Bias in KI-Systemen beschäftigt und nicht an dem Hugging-Face-Projekt beteiligt war. "Was am Ende passiert, ist ein Fingerabdruck der amerikanischen Online-Kultur ... der sich in die ganze Welt fortsetzt", sagt sie.

Caliskan meint weiterhin, dass die Tools von Hugging Face KI-Entwicklern helfen könnten, Vorurteile in ihren KI-Modellen besser zu verstehen und zu reduzieren. "Wenn die Menschen diese Beispiele direkt sehen, glaube ich, dass sie in der Lage sind, die Bedeutung solcher Verzerrungen besser zu verstehen", sagt sie.