Studie prüft, welche KI-Modelle eher links- oder rechtslastige Antworten geben

Forschungsergebnisse zeigen, dass Nutzer mehr rechts- oder linksgerichtete Antworten erhalten, je nachdem, welches KI-Modell sie fragen.

46

(Bild: Erstellt mit Midjourney durch heise online)

10.08.2023, 13:10 Uhr

Lesezeit: 8 Min.

MIT Technology Review

Von

Melissa Heikkilä

Sollten Unternehmen gesellschaftliche Verantwortung übernehmen? Oder existieren sie nur, um ihren Aktionären Profit zu liefern? Wenn man eine Künstliche Intelligenz (KI) fragt, erhält man sehr unterschiedliche Antworten – je nachdem, welche man fragt. Während die älteren GPT-2- und GPT-3-Ada-Modelle von OpenAI die erste Aussage unterstützen, wäre das fortgeschrittenere GPT-3 Da Vinci für die zweite.

Das liegt daran, dass KI-Sprachmodelle unterschiedliche politische Vorurteile enthalten, wie eine neue Studie der University of Washington, der Carnegie Mellon University und der Xi'an Jiaotong University besagt. Die Forscher führten Tests an 14 großen Sprachmodellen durch und stellten fest, dass ChatGPT und GPT-4 von OpenAI die linksliberalsten waren, während Metas LLaMA am meisten rechts-autoritär war.

Sprachmodelle zu Themen wie Feminismus und Demokratie

Die Forschenden fragten Sprachmodelle, wie sie zu verschiedenen Themen wie Feminismus und Demokratie stehen. Aus den Antworten erstellten sie ein Diagramm, das als politischer Kompass bekannt ist. Dann testeten die Wissenschaftler, ob ein neues Training der Modelle mit politisch noch voreingenommeneren Trainingsdaten ihr Verhalten und ihre Fähigkeit, Hassreden und Fehlinformationen zu erkennen, veränderten. Das war tatsächlich der Fall. Die Forschungsergebnisse wurden in einem Fachartikel beschrieben, der auf der Konferenz der Association for Computational Linguistics letzten Monat mit dem "Best Paper Award" ausgezeichnet wurde.

Da KI-Sprachmodelle in Produkten und Dienstleistungen eingeführt werden, die Millionen von Menschen nutzen, könnte es nicht wichtiger sein, die zugrunde liegenden politischen Annahmen und Vorurteile zu verstehen. Denn schließlich haben sie das Potenzial, echten Schaden anzurichten. Ein Chatbot, der Gesundheitsberatung anbietet, könnte sich weigern, Ratschläge zu Abtreibung oder Empfängnisverhütung anzubieten, oder ein Kundendienst-Bot könnte anfangen, beleidigenden Unsinn zu verbreiten.

Seit dem Erfolg von ChatGPT wurde OpenAI von rechtsgerichteten Kommentatoren kritisiert, der Chatbot spiegele eine liberalere Weltsicht wider. Das Unternehmen hingegen betont, dass es sich um diese Bedenken kümmert. In einem Blog-Post ruft es seine menschlichen Gutachter, die beim Feintuning des KI-Modells helfen, dazu auf, keine politische Gruppe zu bevorzugen. "Vorurteile, die dennoch bei diesem Prozess auftreten könnten, sind Fehler und keine Funktionen", heißt es in dem Blog.

Die Doktorandin Chan Park von der Carnegie Mellon University, die dem Studienteam angehörte, ist allerdings ganz anderer Meinung: "Wir glauben, dass kein Sprachmodell völlig frei von politischen Vorurteilen sein kann."

Voreingenommenheit schleicht sich in jeder Phase ein

Um herauszufinden, wie KI-Sprachmodelle politische Vorurteile aufgreifen, untersuchten die Forscher drei Phasen der Entwicklung eines Modells. Im ersten Schritt baten sie 14 Sprachmodelle, 62 politisch sensiblen Aussagen zuzustimmen oder nicht zuzustimmen. Dies half den Wissenschaftlern, die zugrunde liegenden politischen Neigungen der Modelle zu identifizieren und sie auf einem politischen Kompass darzustellen. Zur Überraschung des Teams stellte es fest, dass KI-Modelle deutlich unterschiedliche politische Tendenzen haben, sagt Park.

Die Forscher fanden heraus, dass BERT-Modelle, also von Google entwickelte KI-Sprachmodelle, sozial konservativer waren als die GPT-Modelle von OpenAI. Im Gegensatz zu GPT-Modellen, die das nächste Wort in einem Satz vorhersagen, sagen BERT-Modelle Teile eines Satzes anhand der Umgebungsinformationen innerhalb eines Textes voraus. Ihr sozialer Konservatismus könnte darauf beruhen, dass ältere BERT-Modelle mit Büchern trainiert wurden, die tendenziell konservativer waren. Die neueren GPT-Modelle dagegen wurden mit liberaleren Internettexten trainiert, vermuten die Forscher.

Allerdings ändern sich KI-Modelle im Laufe der Zeit auch, wenn Technologieunternehmen ihre Datensätze und Trainingsmethoden aktualisieren. GPT-2 zum Beispiel drückte noch Unterstützung für die "Besteuerung der Reichen" aus, während das neuere GPT-3-Modell von OpenAI dies nicht tat.

Einem Meta-Sprecher zufolge hat das Unternehmen Informationen darüber veröffentlicht, wie es Llama 2 entwickelt hat – einschließlich der Feinabstimmung des Modells, um Vorurteile zu reduzieren. Es werde "weiterhin mit der Community zusammenarbeiten, um Schwachstellen auf transparente Weise zu identifizieren und zu entschärfen und die Entwicklung einer sichereren generativen KI zu unterstützen". Google reagierte nicht rechtzeitig vor der Veröffentlichung auf die Bitte von MIT Technology Review um einen Kommentar.

Im zweiten Schritt wurden zwei KI-Sprachmodelle, GPT-2 von OpenAI und RoBERTa von Meta, mit Datensätzen trainiert, die aus Nachrichtenmedien und Social-Media-Daten aus rechts- und linksgerichteten Quellen stammten, sagt Park. Das Team wollte herausfinden, ob Trainingsdaten die politischen Vorurteile beeinflussen.

Das taten sie tatsächlich. Wie das Team herausfand, trug dieser Prozess dazu bei, die Vorurteile der Modelle noch weiter zu verstärken: Linklastige Modelle wurden noch linkslastiger und rechtslastige noch rechtslastiger.

In der dritten Phase seiner Forschung fand das Team auffallende Unterschiede darin, wie sich die politische Ausrichtung von KI-Modellen darauf auswirkt, welche Arten von Inhalten die Modelle als Hassrede und Fehlinformation einstuften.

Die Modelle, die mit linkgerichteten Daten trainiert wurden, reagierten empfindlicher auf Hassreden, die sich gegen ethnische, religiöse und sexuelle Minderheiten in den USA richteten, zum Beispiel Schwarze und LGBTQ+-Personen. Die Modelle, die mit rechtsgerichteten Daten trainiert wurden, reagierten empfindlicher auf Hassreden gegen weiße christliche Männer.

Linksgerichtete Sprachmodelle waren auch besser darin, Fehlinformationen aus rechtsgerichteten Quellen zu identifizieren, aber weniger empfindlich gegenüber Fehlinformationen aus linksgerichteten Quellen. Rechtsgerichtete Sprachmodelle zeigten das umgekehrte Verhalten.

Lesen Sie auch

Autonome KI-Agenten: Smallville-Experiment ist jetzt Open Source

Hand an tastatur mit dem Wort ChatGPT im Vordergrund

Crawler für Training von GPT ausschließen: OpenAI stellt Code für robots.txt vor

Sechs Meilensteine, wie Künstliche Intelligenz die Politik verändern könnte

Ai(artificial,Intelligence),Concept. Bard, ChatGPT, KI, Chatbot

GPT-3 schlägt Studierende im analogen Denken

Datensätze von Vorurteilen zu bereinigen reicht nicht

Letztendlich ist es für externe Beobachter unmöglich zu wissen, warum verschiedene KI-Modelle unterschiedliche politische Vorurteile haben, da Technologieunternehmen keine Details zu den Daten oder Methoden weitergeben, mit denen sie trainiert werden, sagt Park.

Die Forscher haben versucht, Verzerrungen in Sprachmodellen zu mindern, indem sie voreingenommene Inhalte aus Datensätzen entfernten oder herausfilterten. "Die große Frage, die das Papier aufwirft, lautet: Reicht die Bereinigung von Daten [von Verzerrungen] aus? Und die Antwort ist nein", sagt Soroush Vosoughi, Assistenzprofessor für Informatik am Dartmouth College, der nicht an der Studie beteiligt war.

Es sei sehr schwierig, eine riesige Datenbank vollständig von Verzerrungen zu befreien, sagt Vosoughi. KI-Modelle sind auch sehr gut in der Lage, selbst geringfügige Verzerrungen, die in den Daten vorhanden sein könnten, aufzudecken.

Eine Einschränkung der Studie bestand darin, dass die Forscher die zweite und dritte Phase nur mit relativ alten und kleinen Modellen wie GPT-2 und RoBERTa durchführen konnten, sagt Ruibo Liu. Der DeepMind-Forscher, der politische Verzerrungen in KI-Sprachmodellen untersucht hat, war nicht an der Studie beteiligt. Liu würde gerne sehen, ob die Schlussfolgerungen der Studie auf die neuesten KI-Modelle zutreffen. Akademische Forscher haben jedoch keinen Zugang zum Innenleben modernster KI-Systeme wie ChatGPT und GPT-4 und werden diesen wahrscheinlich auch nicht bekommen. Das erschwert die Analyse.

Eine weitere Einschränkung besteht darin, dass die Antworten eines Modells möglicherweise nicht seinen "inneren Zustand" widerspiegeln, wie es Vosoughi nennt. Er verweist auf den Umstand, dass KI-Modelle dazu neigen, sich Antworten schlicht auszudenken. Die Forscher der Studie räumen auch ein, dass der politische Kompass-Test zwar weit verbreitet ist, aber nicht alle Nuancen im Bereich der Politik perfekt erfassen kann.

Wenn Unternehmen KI-Modelle in ihre Produkte und Dienstleistungen integrieren, sollten sie sich stärker bewusst machen, wie diese Vorurteile das Verhalten ihrer Modelle beeinflussen, um sie fairer zu machen, sagt Park: "Es gibt keine Fairness ohne Bewusstsein."

(vsz)

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}