Führt Googles neuer Such-Algorithmus zu mehr rassistischen Verzerrungen?

Ein neuer Algorithmus von Google kann Suchanfragen mit Bildern in Verbindung setzen. Unklar bleibt, auf welchen Trainingsdaten er basiert.

In Pocket speichern vorlesen Druckansicht 38 Kommentare lesen

(Bild: BigTunaOnline/Shutterstock.com)

Lesezeit: 6 Min.
Von
  • Eva Wolfangel

Trifft ein Google-Nutzer eine Freundin. Die trägt eine Bluse voller großflächiger roter und blauer Blumenmuster. Der Google-Nutzer findet das schön, möchte aber lieber Socken mit dem gleichen Muster. Also macht er ein Foto von der Freundin, lädt es in die Google-Suche und tippt dazu "Socken mit diesem Muster" ein – und tadaa! Die Google-Suche spuckt einige Shopping-Websites aus, die tatsächlich Socken mit ähnlichem Muster anbieten.

Auch wenn der Demo-Usecase, den Google sich für die neue Funktion seiner Suche ausgedacht hat, ein bisschen wie ein Witz klingt und zumindest nicht einer gewissen Nerdigkeit entbehrt, ist die Neuerung vielversprechend: Nutzer können dann mit der App "Lens" auch Fotos verwenden, um etwas zu suchen. Die Google-Suche soll damit im kommenden Jahr also "multimodal" werden.

Der Begriff Multimodalität besagt, dass mehrere Modi beteiligt sind oder genutzt werden. In der Mobilität heißt das beispielsweise, verschiedene Verkehrsmittel zu kombinieren. Auch in der Computerlinguistik ist Multimodalität seit einigen Jahren ein großes Thema: dabei werden nicht mehr nur Sprache oder Text genutzt, um die Bedeutung von Wörtern zu lernen, sondern auch Bilder und Videos. Bei der Google-Suche beschreibt die Bezeichnung ebenfalls, dass anstatt reiner Textsuche künftig auch Bilder als Eingabe für die Suche genutzt werden können.

Grundlage ist das so genannte Multitask Unified Model (MUM), ein Modell, das nicht nur Sprache verarbeiten kann, sondern auch Bilder. Laut Pandu Nayak, Google Vice President Search, ist es "1.000-mal leistungsfähiger als BERT" – eines der größten Sprachmodelle überhaupt. Das liegt unter anderem daran, dass MUM Informationen aus verschiedenen Sprachen zusammenführen und auch Informationen aus Bildern nutzen kann. MUM ist auf 75 verschiedenen Sprachen trainiert. Dadurch soll es in der Lage sein, komplexe Fragen zu verstehen und Weltwissen anzuhäufen, das bei der Beantwortung hilft.

Nayak nennt folgendes Beispiel als Vision für die künftige Suche mittels MUM: "Angenommen, Sie haben den Mount Adams bestiegen. Jetzt wollen Sie im nächsten Herbst den Fuji besteigen und möchten wissen, was Sie zur Vorbereitung anders machen müssen." Wer das heute sucht, kann diese Frage nicht so an Google oder eine andere Suchmaschine stellen. Er würde vielmehr nach der Höhe jedes Berges suchen müssen, nach der durchschnittlichen Temperatur im Herbst, dem Schwierigkeitsgrad der Wanderwege, der richtigen Ausrüstung und vieles mehr. Einem menschlichen Wanderexperten hingegen müsste man nur eine Frage stellen: "Was sollte ich anders machen, um mich vorzubereiten?" Die neue Google-Suche sieht darin ihr Vorbild. Das Modell soll also "menschlicher" kommunizieren, zudem sollen durch die Kombination von Text und Bild Missverständnisse vermieden werden.

"Wenn wir etwas über eine Sprache lernen wollen, haben wir immer das Problem der Mehrdeutigkeit", sagt Jonas Kuhn, Professor für maschinelle Sprachverarbeitung an der Universität Stuttgart. "Sobald ein Bild dabei ist, habe ich eine Disambiguierung." Kuhn ist optimistisch, dass MUM recht schnell auch subtile Unterschiede lernt. Der Begriff "Vorbereitung" – auf die Bergtour beispielsweise – ist linguistisch eigentlich eindeutig. Trotzdem können verschiedene Dinge damit gemeint sein, beispielsweise der Kauf der richtigen Bergstiefel oder die körperliche Vorbereitung, wie Fitnesstraining.

Gleichzeitig gibt es natürlich weiterhin Schwachstellen wie der sogenannte Bias in der maschinellen Sprachverarbeitung. Ergebnisse solch großer Modelle könnten rassistische und sexistische Verzerrungen enthalten und verstärken. Forscherinnen haben gezeigt, dass diese Verzerrungen gerade in großen Sprachmodellen zudem schwierig automatisiert zu finden und auszumerzen sind. Nayak von Google betont zwar, dass man sich mit dem Thema Bias beschäftige. Konkreter wird es jedoch nicht. Zudem ist unklar, auf welchen Trainingsdaten MUM basiert.

Google hat in der Vergangenheit immer wieder versucht, seine Systeme fair und frei von rassistischen und sexistischen Verzerrungen zu bekommen – und immer wieder hat sich gezeigt, dass das nicht möglich ist. Im vergangenen Jahr hatte ein Journalist demonstriert, dass Google-Vision AI – ein Dienst zur automatischen Erkennung von Gegenständen und Personen auf Bildern – ein Thermometer in einer schwarzen Hand als "Pistole" erkannte, während ein anderes Thermometer in einer weißen Hand als "elektronisches Gerät" markiert wurde. Google entschuldigte sich.

"Wenn man Bilddaten mit ins Training hineinnimmt, muss man sehr vorsichtig sein", warnt Jonas Kuhn von der Universität Stuttgart, "die Wahrscheinlichkeit ist groß, dass sich Machtstrukturen und Asymmetrien im Modell widerspiegeln." Wer etwa heute eine Million Bilder von Ärztinnen und Ärzten sammelt, habe einen Ausschnitt aus der aktuellen Verteilung. "Wenn es in fünf Jahren mehr Ärztinnen aus einer bestimmten Minderheit gibt, dann würden diese von den trainierten Modellen eventuell nicht als Ärztinnen identifiziert."

Um Verzerrungen zu vermeiden und beispielsweise keine extremistischen Positionen in den Sprachmodellen wiederzufinden, werden Trainingsdaten gefiltert. "Google wird hier recht starke Filter verwenden müssen", sagt Kuhn. Aber auch diese werden ihre eigenen Verzerrungen und Missverständnisse aufweisen und sicherlich auch legitime Inhalte herausfiltern. So könnten Minderheiten wie die LGBTQ+-Community dadurch benachteiligt werden, weil möglicherweise bestimmte Schlüsselwörter als verdächtig oder nicht mehrheitsfähig klassifiziert werden. Dadurch sind weniger Trainingsdaten vorhanden, um Besonderheiten bei diesen Gruppen verlässlich zu erfassen. "Die Google-Suche wird immer besser funktionieren für Mehrheitsgruppen", sagt Kuhn, "der weiße Mainstream-Bias wird sich schnell im Modell niederschlagen."

Gleichzeitig sieht er eine große Chance darin, bessere Suchergebnisse zu erhalten, wenn die Suche multimodal wird. Mögliche Verzerrungen sollten aber transparent gemacht werden. "Man muss sich als Nutzer eben vor Augen führen: das ist die Mainstream-Bubble." Aus seiner Sicht ist die gesellschaftliche Aufklärung über die Schwächen und Limitationen auch der multimodalen Google-Suche wichtig. "Die digital literacy muss bei solchen Innovationen ständig nachziehen." Das betrifft natürlich auch den kommerziellen Hintergrund von Googles Bemühungen: "Man kann auf diese Weise auch Werbung unglaublich gezielt einsetzen", sagt Kuhn. Wenn das Modell die Nutzer besser versteht und subtile Unterschiede bei Suchanfragen erkennt, wird auch personalisierter Werbung einen neuen Aufschwung erleben. Auch das sollten diejenigen wissen, die künftig nach Socken mit großflächigem Blumenmuster suchen. (jle)