Warum Forscher wirkmächtige Sprach-KIs besser verstehen wollen

Forscher weltweit kooperieren, um mächtige neue Texterstellungssysteme zu analysieren, die Google & Co. geschaffen haben, aber noch nicht vollständig verstehen.

In Pocket speichern vorlesen Druckansicht 14 Kommentare lesen

(Bild: Ariel Davis)

Lesezeit: 15 Min.
Von
  • Karen Hao
Inhaltsverzeichnis

Am 18. Mai kündigte Google-CEO Sundar Pichai ein beeindruckendes neues Tool an: Das KI-System namens LaMDA soll mit Nutzern über jedes Thema unterhalten können. Für den Anfang plant der Suchmaschinenriese, LaMDA in sein Hauptsuchportal, sein Sprachassistenzsystem und die Software Workplace zu integrieren – eine Sammlung Cloud-basierter Arbeits-Apps, die Gmail, Docs und Drive umfasst. Aber das letztendliche Ziel, so Pichai, sei es, eine Konversationsschnittstelle zu schaffen, die es Menschen ermöglicht, jede Art von Informationen – egal, ob Text, Bild oder Audio – über alle Google-Produkte hinweg abzurufen, indem sie einfach danach fragen.

Die Einführung von LaMDA ist ein weiteres Beispiel dafür, wie sich Sprachtechnologien in unser tägliches Leben integrieren. Aber Googles herausgeputzte Präsentation täuschte über die ethische Debatte hinweg, die solche hochmodernen Systeme umgibt. LaMDA ist ein sogenanntes Large Language Model (LLM) – ein Deep-Learning-Algorithmus, der mit enormen Mengen von Textdaten trainiert wurde.

Studien haben bereits gezeigt, wie rassistische, sexistische und beleidigende Vorstellungen in diese Modelle eingebettet sind. Sie assoziieren Kategorien wie "Ärzte" stets mit Männern und "Krankenschwestern" stets mit Frauen; gute Wörter erstaunlich oft eher mit weißen Menschen und schlechte eher mit schwarzen Menschen. Wenn man sie mit den richtigen Eingaben ("Prompts") konfrontiert, beginnen sie auch schon mal, schlimme Dinge wie Völkermord, Selbstverletzung oder sexuellen Kindesmissbrauch positiv zu erwähnen. Und aufgrund ihrer Leistungsanforderungen haben sie einen erschreckend hohen CO2-Fußabdruck.

Aufgrund ihrer Sprachgewandtheit verleiten sie Menschen schnell dazu, zu denken, dass ein Mensch den Text geschrieben hat, was laut Experten die massenhafte Produktion von Falschinformationen ermöglichen könnte. Im Dezember entließ Google seine KI-Ethik-Co-Leiterin Timnit Gebru, nachdem sie sich geweigert hatte, eine Arbeit zurückzuziehen, die viele dieser Punkte enthielt. Ein paar Monate später, nach einer breiten öffentlichen Anprangerung der Affäre, die ein offener Brief von Google-Mitarbeitern als "beispiellose Forschungszensur" bezeichnete, feuerte das Unternehmen auch Gebru-Co-Autorin und Co-Leiterin Margaret Mitchell.

Es ist nicht nur Google, das diese Technologie einsetzt. Die bisher bekanntesten Sprachmodelle sind GPT-2 und GPT-3 von OpenAI, die bemerkenswert überzeugende Textpassagen ausspucken und sogar für die Fertigstellung von Musikkompositionen und Computercode verwendet werden können. Microsoft lizenziert nun exklusiv GPT-3, um es in noch nicht angekündigte Produkte einzubauen. Facebook hat seine eigenen LLMs für die Übersetzung und Moderation von Inhalten entwickelt. Und Start-ups entwickeln Dutzende von Produkten und Dienstleistungen, die auf den Modellen der Tech-Giganten basieren. Schon bald werden alle unsere digitalen Interaktionen – etwa wenn wir E-Mails schreiben, im Internet suchen oder in sozialen Medien posten – durch LLMs gefiltert werden.

Leider wird nur sehr wenig Forschung betrieben, um zu verstehen, wie sich die Fehler dieser Technik auf Menschen in realen Anwendungen auswirken könnten, oder um herauszufinden, wie man bessere LLMs entwerfen kann, die diese Herausforderungen abmildern. Wie Google in seiner Behandlung von Gebru und Mitchell zeigte, haben die wenigen Unternehmen, die reich genug sind, LLMs herzustellen und zu unterhalten, ein starkes finanzielles Interesse daran, sie eben nicht sorgfältig zu untersuchen. Mit anderen Worten: LLMs werden zunehmend auf wackligen wissenschaftlichen Fundamenten in die textliche Infrastruktur des Internet integriert.

Mehr als 500 Forscher auf der ganzen Welt liefern sich nun ein Rennen, um mehr über die Fähigkeiten und Grenzen dieser Modelle zu erfahren. Im Rahmen des sogenannten BigScience-Projekts unter der Leitung von Huggingface, einem Startup-Unternehmen, das einen "Open Science"-Ansatz zum Verständnis der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) verfolgt, versuchen sie, ein Open-Source-LLM zu erstellen, das als gemeinsame Ressource für die wissenschaftliche Gemeinschaft dienen kann. Das Ziel ist es, innerhalb eines einzigen Jahres so viel Forschung wie möglich zu generieren. Die zentrale Frage: Wie und wann sollten LLMs entwickelt und eingesetzt werden, um von ihnen ohne ihre schädlichen Folgen zu profitieren?

"Wir können die Verrücktheit, die sich um große Sprachmodelle gebildet hat, nicht wirklich stoppen, jetzt, wo jeder sie trainieren will", sagt Thomas Wolf, Chief Science Officer bei Huggingface, Co-Leiter der Initiative. "Aber was wir tun können, ist zu versuchen, das Ganze in eine Richtung zu lenken, die am Ende allen mehr Nutzen bringt."

Im selben Monat, in dem BigScience seine Aktivitäten startete, trat ein Start-up namens Cohere leise aus dem Stealth-Modus hervor. Es wurde von ehemaligen Google-Forschern gegründet und verspricht, LLMs zu jedem Unternehmen zu bringen, das eines haben möchte – mit einer einzigen Zeile Code. Es hat eine Technik entwickelt, um sein eigenes Modell mit den ungenutzten Kapazitäten in einem Rechenzentrum zu trainieren und zu hosten, was die Kosten für das Anmieten des notwendigen Cloud-Speicherplatzes für Wartung und Bereitstellung niedrig hält.

Zu den frühen Kunden von Cohere gehört das Startup Ada Support, eine Plattform für den Aufbau von No-Code-Chatbots für den Kundensupport, das selbst Kunden wie Facebook und Zoom hat. Auf der Investorenliste von Cohere stehen einige der größten Namen in diesem Bereich: der Computer-Vision-Pionier Fei-Fei Li, der Turing-Award-Gewinner Geoffrey Hinton und der Leiter der KI-Abteilung von Apple, Ian Goodfellow.

Cohere ist eine von mehreren Startups und Initiativen, die LLMs in verschiedene Branchen bringen wollen. Es gibt auch noch Aleph Alpha, ein Startup mit Sitz in Deutschland, das versucht, ein deutsches GPT-3 zu bauen, ein bislang unbekanntes Projekt, das von mehreren ehemaligen OpenAI-Forschern gegründet wurde sowie die Open-Source-Initiative Eleuther, die vor kurzem GPT-Neo, eine freie (und etwas weniger leistungsfähige) Reproduktion von GPT-3, herausgebracht hat.

Aber es ist die Lücke zwischen dem, was LLMs sind, und dem, was sie anstreben, die eine wachsende Zahl von Forschern beunruhigt hat. LLMs sind effektiv die leistungsfähigsten Autovervollständigungstechnologien der Welt. Durch die Aufnahme von Millionen von Phrasen, Absätzen und sogar Dialogbeispielen lernen sie die statistischen Muster, die bestimmen, wie jedes dieser Elemente in einer sinnvollen Reihenfolge zusammengesetzt werden sollte. Das bedeutet, dass LLMs bestimmte Aktivitäten verbessern können: Sie sind zum Beispiel gut geeignet, um interaktivere und in Sachen Konversationsfähigkeit flüssigere Chatbots zu erstellen, die einem sinnvoll etablierten Skript folgen. Aber sie verstehen nicht wirklich, was sie lesen oder sagen. Viele der fortschrittlichsten Fähigkeiten von LLMs sind heute außerdem auch nur auf Englisch verfügbar.

Unter anderem warnen Gebru, Mitchell und fünf weitere Wissenschaftler in ihrem Paper, das LLMs "stochastische Papageien" sind. "Sprachtechnologie kann sehr, sehr nützlich sein, wenn sie angemessen skaliert, positioniert und umrahmt wird", sagt Emily Bender, Professorin für Linguistik an der University of Washington und eine der Mitautorinnen des Papers. Aber die Allzwecknatur von LLMs – und die Überzeugungskraft ihrer Nachahmung des Menschen – verleitet Unternehmen dazu, sie in Bereichen einzusetzen, für die sie nicht ausgerüstet sind.

In einer kürzlich gehaltenen Keynote auf einer der größten KI-Konferenzen verknüpfte Gebru diesen übereilten Einsatz von LLMs mit den Konsequenzen, die sie in ihrem eigenen Leben erfahren hat. Gebru ist in Äthiopien geboren und aufgewachsen, wo ein eskalierender Krieg die nördlichste Region Tigray verwüstet hat. Äthiopien ist auch ein Land, in dem 86 Sprachen gesprochen werden, von denen fast alle in den Mainstream-Sprachtechnologien nicht berücksichtigt sind.

Trotz dieser sprachlichen Defizite verlässt sich Facebook in hohem Maße auf LLMs, um seine Inhaltsmoderation weltweit zu automatisieren. Als der Krieg in Tigray im November ausbrach, sah Gebru, wie die Plattform Schwierigkeiten hatte, die Flut von Falschinformationen in den Griff zu bekommen. Dies ist bezeichnend für ein beständiges Muster, das Forscher bei der Moderation von Inhalten beobachtet haben. Communities, die Sprachen sprechen, die vom Silicon Valley nicht priorisiert werden, leiden unter feindseligen digitalen Umgebungen.

Gebru merkte an, dass dies auch nicht das Ende der Fahnenstange ist. Wenn Fake News, Hassrede und sogar Todesdrohungen nicht moderiert werden, dienen sie als Trainingsdaten, um dann die nächste Generation von LLMs herzustellen. Und solche Modelle spucken den Hass dann wiederum ins Internet.

In vielen Fällen haben die Forscher nicht gründlich genug untersucht, um zu wissen, wie sich solcherlei Toxizität in nachgelagerten Anwendungen manifestieren könnte. Aber es gibt einige wissenschaftliche Arbeiten zum Thema in ihrem 2018 erschienenen Buch "Algorithms of Oppression" dokumentierte Safiya Noble, außerordentliche Professorin für Informationswissenschaften und afroamerikanische Studien an der University of California, Los Angeles, wie in die Google-Suche eingebettete Vorurteile Rassismus verewigen und in extremen Fällen womöglich gar zu rassistischer Gewalt motivieren. "Die Konsequenzen sind ziemlich schwerwiegend und signifikant", sagt sie. Google ist nicht nur das wichtigste Wissensportal für den Durchschnittsbürger. Es stellt auch die Informationsinfrastruktur für Institutionen, Universitäten sowie Landes- und Bundesregierungen bereit.

Google nutzt bereits ein LLM, um einige seiner Suchergebnisse zu optimieren. Mit seiner jüngsten Ankündigung von LaMDA und kürzlich in einem Preprint-Paper veröffentlichten Vorschlägen hat das Unternehmen deutlich gemacht, dass es seine Abhängigkeit von dieser Technologie nur noch weiter erhöhen wird. Forscherin Noble befürchtet, dass dies die Probleme, die sie aufgedeckt hat, noch verschlimmern könnte: Die zeige die Kündigung der Chefs des Teams für ethische KI.

Das BigScience-Projekt begann als direkte Reaktion auf den wachsenden Bedarf an wissenschaftlicher Überprüfung von LLMs. Als Wolf und einige Kollegen die schnelle Verbreitung der Technologie und Googles Zensurversuch gegen Gebru und Mitchell beobachteten, erkannten sie, dass es für die Forschungsgemeinschaft an der Zeit war, die Dinge selbst in die Hand zu nehmen. Inspiriert von offener wissenschaftlicher Zusammenarbeit wie dem CERN in der Teilchenphysik, entwickelten sie die Idee eines Open-Source-LLM, mit dem kritische Forschung unabhängig von Unternehmen betrieben werden kann. Im April dieses Jahres erhielt die Gruppe einen Zuschuss, um es mit Hilfe des Supercomputers der französischen Regierung zu bauen.

In Technologieunternehmen werden LLMs oft nur von einem halben Dutzend Personen gebaut, die vor allem über technisches Fachwissen verfügen. BigScience wollte Hunderte von Forschern aus einer Vielzahl von Ländern und Disziplinen einbeziehen, um an einem wirklich kollaborativen Aufbauprozess des Modells teilzunehmen. Wolf, der Franzose ist, wandte sich zunächst an die französische NLP-Community. Von dort aus entwickelte sich die Initiative zu einer globalen Operation, an der mehr als 500 Personen beteiligt sind.

Die Zusammenarbeit ist jetzt lose in mehr als einem Dutzend Arbeitsgruppen organisiert, die sich jeweils mit verschiedenen Aspekten der Modellentwicklung und -untersuchung befassen. Eine Gruppe wird die Auswirkungen des Modells auf die Umwelt messen, einschließlich des CO2-Fußabdrucks der Erstellung und des Betriebs des LLM und der Berücksichtigung der Lebenszykluskosten des Supercomputers. Eine andere Gruppe wird sich darauf konzentrieren, verantwortungsvolle Wege zur Beschaffung der Trainingsdaten zu entwickeln – sie sucht nach Alternativen zum einfachen Scraping von Daten aus dem Internet, wie z.B. das Transkribieren von historischen Radioarchiven oder Podcasts. Das Ziel ist es, toxische Sprache und das Sammeln von privaten Informationen ohne Genehmigung zu vermeiden.

Andere Arbeitsgruppen widmen sich der Entwicklung und Evaluierung der "Mehrsprachigkeit" des Modells. Für den Anfang hat BigScience acht Sprachen oder Sprachfamilien ausgewählt, darunter Englisch, Chinesisch, Arabisch, Indisch (einschließlich Hindi und Urdu) und Bantu (einschließlich Swahili). Der Plan ist, eng mit jeder Sprach-Community zusammenzuarbeiten, um so viele ihrer regionalen Dialekte wie möglich zu erfassen und sicherzustellen, dass ihre unterschiedlichen Datenschutzregeln respektiert werden. "Wir wollen, dass die Menschen ein Mitspracherecht haben, wie ihre Daten verwendet werden", sagt Yacine Jernite, ein Forscher bei Huggingface.

Es geht nicht darum, ein kommerziell tragfähiges LLM zu bauen, das mit GPT-3 oder LaMDA konkurriert. Das Modell wird zu groß und zu langsam sein, um für Unternehmen nützlich zu werden, sagt Karën Fort, außerordentliche Professorin an der Sorbonne. Stattdessen wird die Ressource rein für die Forschung entwickelt. Jeder Datenpunkt und jede Modellierungsentscheidung werden sorgfältig und öffentlich dokumentiert, so dass es einfacher ist, zu analysieren, wie alle Teile die Ergebnisse des Modells beeinflussen. "Es geht nicht nur darum, das Endprodukt zu liefern", sagt Angela Fan, eine Facebook-Forscherin.

Das Projekt ist zweifellos ehrgeizig – es ist globaler und kollaborativer als alles, was die KI-Gemeinschaft bisher gesehen hat. Die Logistik, so viele Forscher zu koordinieren, ist schon eine Herausforderung. (Tatsächlich gibt es auch dafür eine Arbeitsgruppe.) Hinzukommt, dass jeder einzelne Forscher auf freiwilliger Basis mitarbeitet. Der Zuschuss der französischen Regierung deckt nur die informationstechnischen aber nicht die personellen Ressourcen ab.

Die Forscher sagen jedoch, dass das gemeinsame Bedürfnis, das die Gemeinschaft zusammengebracht hat, ein beeindruckendes Maß an Energie und Schwung in die Sache gebracht hat. Viele sind optimistisch, dass sie am Ende des Projekts, das bis Mai nächsten Jahres läuft, nicht nur tiefere wissenschaftliche Erkenntnisse über die Grenzen von LLMs gewonnen haben werden, sondern auch bessere Werkzeuge und Praktiken, um sie verantwortungsvoll aufzubauen und einzusetzen.

Die Organisatoren hoffen, dass dies mehr Menschen in der Industrie dazu inspirieren wird, diese Praktiken in ihre eigene LLM-Strategie einzubauen, obwohl sie die ersten sind, die zugeben, dass das sehr idealistisch ist. Wenn überhaupt, dann wird die schiere Anzahl der beteiligten Forscher, darunter viele von Tech-Giganten, dazu beitragen, neue Normen innerhalb der NLP-Gemeinschaft zu etablieren.

In gewisser Weise haben sich die Normen bereits verschoben. Als Reaktion auf die Gespräche rund um die Entlassung von Gebru und Mitchell hörte Cohere von mehreren seiner Kunden, dass sie sich Sorgen um die Sicherheit der Technologie machten. Cohere hat nun eine Seite auf seiner Website untergebracht mit dem Versprechen, kontinuierlich in technische und nicht-technische Forschung zu investieren, um mögliche Schäden durch sein Modell zu reduzieren. Die Firma sagt, dass sie auch einen Beirat aus externen Experten zusammenstellen wird, der ihr dabei helfen soll, Richtlinien für die zulässige Nutzung ihrer Technologien zu erstellen.

"NLP befindet sich an einem sehr wichtigen Wendepunkt", sagt Fort von der Sorbonne. Deshalb sei BigScience auch so spannend. Es ermöglicht der Community, die Forschung voranzutreiben und eine hoffnungsfrohere Alternative zum Status quo in der Industrie zu bieten: "Das Projekt sagt: Lasst uns einen weiteren Versuch wagen. Lasst uns gemeinsam herausfinden, wie und was wir tun können, um der Gesellschaft zu helfen." KI dürfe den Menschen nicht "niedermachen". (bsc)