Sexisten im Algorithmus: Datensammlungen für KI-Sprachtraining enthalten Geschlechter-Stereotype

Wenn Maschinen lernen sollen, Sprache zu verstehen, werden sie mit reichlich Beispielen über Beziehungen zwischen Worten trainiert. Dies könnte allerdings zu einer Fortschreibung von sexistischen Vorurteilen führen.

In Pocket speichern vorlesen Druckansicht 212 Kommentare lesen
Studie: Datensammlungen für KI-Sprachtraining enthalten Geschlechter-Stereotype

(Bild: ash_crow / Flickr / cc-by-sa-2.0)

Lesezeit: 2 Min.
Von
  • Sascha Mattke

Das englische Wort „programmer“ kann ebenso gut für eine Frau stehen wie für einen Mann. In Datensammlungen, mit denen KI-Systeme Sprachverständnis entwickeln sollen, wird dafür allerdings eine engere Verbindung zu Männern als zu Frauen gesehen. Das ist eines der Ergebnisse einer Studie von Forschern an der Boston University und bei Microsoft Research New England, wie Technology Review online in „Sexisten im Algorithmus“ berichtet.

Wenn Maschinen lesen und sprechen lernen sollen, füttern Informatiker sie mit riesigen Mengen an gesprochener oder geschriebener Sprache und lassen sie Verbindungen zwischen Worten und Ausdrücken herstellen. Die so entstehenden Datensammlungen werden als Worteinbettungen (word embeddings) bezeichnet und weithin genutzt, um KI-Systeme zu trainieren, die mit Sprache zu tun haben – etwa Chatbots, Übersetzungssysteme, Programme zur Bilderkategorisierung oder Empfehlungsalgorithmen.

Mit ein paar einfachen Experimenten haben die Forscher demonstriert, welche Folgen die versteckten Geschlechter-Stereotype haben könnten. Zum Beispiel schrieben sie ein Programm, das Webseiten analysiert und nach ihrer Relevanz sortiert. Wie sich zeigte, stufte das System Informationen über Programmiererinnen als weniger relevant ein als solche über männliche Kollegen.

Allerdings ist nicht jeder der Meinung, dass geschlechtliche Verzerrungen aus den Wort-Datensammlungen entfernt werden sollten. Arvind Narayanan, Assistant Professor für Informatik an der Princeton University, etwa warnt, dies könne selbst die Abbildung der realen Welt in Computern verzerren und so auf Kosten ihrer Fähigkeit gehen, Voraussagen zu treffen oder Daten zu analysieren.

Mehr dazu bei Technology Review online:

(sma)