zurück zum Artikel

Konflikt um Fachaufsatz von Google-KI-Forscherin

Karen Hao

(Bild: courtesy of Timnit Gebru)

Die Ethik-Expertin Timnit Gebru arbeitet nicht mehr bei Google. Über ihren Abgang gibt es unterschiedliche Versionen. Eine Rolle spielt ein geplanter Aufsatz.

Anfang Dezember gab Timnit Gebru, Co-Leiterin des Teams für ethische KI bei Google, auf Twitter [1] bekannt, dass sie nicht mehr bei dem Unternehmen arbeitet. Gebru gilt als angesehene Forscherin auf ihrem Gebiet und wurde bekannt als Co-Autorin eines bahnbrechendes Aufsatzes [2], der zeigte, dass Gesichtserkennung bei Frauen und People of Color ungenauer funktioniert, was zu Diskriminierung führen kann. Außerdem hat sie die Gruppe "Black in AI" aufgebaut, die sich für Diversität in der Technologie-Branche einsetzt [3]. Ihr Team bei Google war eines der vielfältigsten in der KI-Forschung und hatte viele führende Köpfe als Mitglied. Kollegen waren neidisch auf seine kritische Arbeit, mit der es gebräuchliche KI-Praktiken hinterfragte.

Wie sich später in Twitter-Nachrichten, durchgesickerten E-Mails [4] und Medienberichten herausstellte, kam die Beendigung von Gebrus Arbeit als Folge eines Konfliktes über einen weiteren Aufsatz, an dem sie beteiligt war. Der Beitrag habe „unsere Anforderungen an eine Publikation nicht erfüllt“, schrieb Googles KI-Chef Jeff Dean in einer internen E-Mail, die er später öffentlich machte [5]. Gebru habe eine Reihe von Bedingungen dafür gestellt, nicht zu kündigen, die er nicht habe erfüllen wollen. Sie selbst erklärte dazu auf Twitter [6], sie habe angeboten, unter bestimmten Bedingungen ihren Namen aus dem Aufsatz streichen zu lassen oder einen „letzten Arbeitstag“ für sie zu besprechen. Doch bevor sie aus einem Urlaub zurückkehrte, war der Zugang zu ihrer beruflichen E-Mail gesperrt.

Im Internet vertraten viele andere führende Forscher auf dem Gebiet die Ansicht, Gebru sei aus dem Unternehmen gedrängt worden, weil sie eine unbequeme Wahrheit über ein Kernelement der Forschung – und vielleicht der Gewinne – bei Google aufgedeckt habe. Mehr als 1400 Google-Beschäftigte und 1900 weitere Personen haben einen Protestbrief unterzeichnet [7].

Viele Einzelheiten der Umstände, die zu Gebrus Abgang bei Google führten, sind noch ungeklärt; weder sie noch das Unternehmen wollten über ihre Beiträge in sozialen Medien hinaus etwas sagen. Aber die US-Ausgabe von Technology Review hat von der Co-Autorin Emily M. Bender, Professorin für Computer-Linguistik an der University of Washington, ein Exemplar des strittigen Aufsatzes erhalten. Sie bat darum, es nicht zu veröffentlichen, weil es sich noch um einen frühen Entwurf handle. Doch seine Lektüre gibt Hinweise darauf, welche für Google möglicherweise unangenehmen Themen zu KI von Gebru und ihrem Team aufgeworfen wurden.

Der Aufsatz ist betitelt mit „Die Gefahren von stochastischen Papageien: Können Sprachmodelle zu groß sein?“ und beschäftigt sich mit künstlich intelligenten Systemen, die mit unglaublichen Mengen an Textbeispielen trainiert wurden. Solche Modelle sind in den vergangenen drei Jahren immer beliebter [8] geworden – und eben größer.

Mittlerweile funktionieren sie bei den richtigen Bedingungen gut und können neue Texte generieren, die überzeugend und sinnvoll erscheinen – manchmal gelingt es auch, die Bedeutung von Sprache zu verstehen. Aber, so heißt es in der Einführung des Papers, „wir stellen die Frage, ob ausreichend über die potenziellen Risiken, die mit ihrer Entwicklung einhergehen, nachgedacht wurde und über Strategien, diese Risiken zu verringern“.

In ihrem Aufsatz bauen die Forscherinnen auf früheren Arbeiten auf. Sie präsentieren die Geschichte der Verarbeitung natürlicher Sprache, einen Überblick über die vier wichtigsten Risiken von großen Sprachmodellen und Vorschläge für weitere Forschung. Weil der Konflikt mit Google die Risiken zu betreffen scheint, konzentrieren wir uns hier auf eine Zusammenfassung dieses Teiles.

Das Trainieren von großen KI-Modellen erfordert viel Rechenleistung und damit Energie. Gebru und die Co-Autoren zitieren eine Studie aus dem Jahr 2019 von einem Team um Emma Strubell über die Kohlendioxid-Emissionen und finanziellen Kosten [9] solcher Sprachmodelle. Seit 2017 soll beides explosiv zugenommen haben, weil die Modelle mit immer mehr Daten gefüttert werden.

Laut Strubell hätte eines der Sprachmodelle mit einer bestimmten „neural architecture search“-Methode das Äquivalent von 284 Tonnen Kohlendioxid produziert, ungefähr so viel wie fünf normale US-Autos im Lauf ihres Lebens. Eine Version des Sprachmodells BERT, das der Suchmaschine von Google zugrunde liegt [10], produzierte nach dieser Schätzung 652 Kilogramm CO2-Äquivalente – ungefähr so viel wie ein Hin- und Rückflug zwischen New York und San Francisco.

Im Entwurf von Gebrus Aufsatz heißt es dazu, dass für Entwicklung und Betrieb großer KI-Modelle derart viele Ressourcen erforderlich seien, laufe darauf hinaus, dass vor allem wohlhabende Organisationen davon profitieren – während arme Gemeinschaften am stärksten vom Klimawandel betroffen sind. „Es ist mehr als an der Zeit, dass die Forschung Energieeffizienz und Kosten priorisiert, um negative Umweltfolgen und ungleichen Zugang zu Ressourcen zu vermeiden“, fordern die Autoren.

Große Sprachmodelle werden mit exponentiell zunehmenden Mengen an Text trainiert. Das bedeutet, dass Forschende so viele Daten aus dem Internet ziehen, wie sie nur können. Und das bringt die Gefahr mit sich, dass rassistische, sexistische oder auf andere Weise missbräuchliche Sprache darunter ist.

Ein KI-Modell, das rassistische Äußerungen als normal gelernt hat, ist offensichtlich schlecht. Doch es gibt auch subtilere Probleme. So spielt Sprache eine wichtige Rolle bei gesellschaftlicher Veränderung. Beispielsweise haben die Bewegungen MeToo und Black Lives Matter versucht, auch ein neues Vokabular zu etablieren. Ein mit riesigen Teilen des Internets trainiertes Modell dürfte auf die Feinheiten dieses Wortschatzes nicht abgestimmt sein und Sprache nicht nach solchen neuen kulturellen Normen interpretieren.

Ebenso entgehen ihm die Sprache und die Normen von Ländern und Völkern, die weniger Zugang zum Internet und deshalb eine weniger ausgeprägte Präsenz darin haben. Die Folge ist, dass von KI generierte Sprache homogenisiert ist und die Praktiken nur der reichsten Länder und Gemeinschaften widerspiegelt.

Weil die Datensammlungen für das Training so groß sind, lassen sie sich zudem kaum auf solche versteckten Verzerrungen überprüfen. „Aus diesem Grund ist eine Methode mit Datensätzen, die zu groß sind, um sie zu dokumentieren, inhärent riskant“, heißt es dazu in dem Paper-Entwurf von Gebru et al. „Eine Dokumentation würde eine Zurechenbarkeit ermöglichen, (…) während undokumentierte Trainingsdaten Schäden ohne Verantwortung festschreiben.“

Die dritte Herausforderung wird in dem Beitrag als „fehlgeleitete Forschungsarbeit“ bezeichnet. Die meisten KI-Experten sind sich darüber einig, dass auch große Modelle Sprache nicht wirklich verstehen [11], sondern nur exzellent damit umgehen. Aber das reicht großen Technologie-Unternehmen schon, um Geld damit zu verdienen, also investieren sie weiter in sie. „Diese Forschungsarbeit bringt Opportunitätskosten mit sich“, schreiben jedoch Gebru und Kollegen: Dadurch bleiben weniger Ressourcen für die Arbeit an KI-Modellen, die tatsächlich verstehen oder mit kleineren und sorgfältiger ausgewählten Datensammlungen gute Ergebnisse erzielen (und somit weniger Energie verbrauchen) könnten.

Das letzte Problem bei großen Sprachmodellen liegt nach Angaben der Autoren darin, dass man Menschen damit leicht täuschen kann, weil sie so gut sind. Einige bekannte Fälle dieser Art gab es bereits, zum Beispiel den US-Studenten [12], der mit Hilfe von KI Artikel zu Selbsthilfe und Produktivität in einem Blog veröffentlichte und großen Erfolg damit hatte.

Die Gefahren sind offensichtlich: Mit KI-Modellen ließe sich Desinformation über Wahlen oder die Coronavirus-Pandemie produzieren. Und bei Maschinen-Übersetzungen können sie auch für unabsichtliche Fehler sorgen. Ein Beispiel dazu aus dem Gebru-Paper: Im Jahr 2017 wurde ein Facebook-Beitrag eines Palästinensers automatisch falsch übersetzt [13] – statt „guten Morgen“ sollte er „greift sie an“ geschrieben haben. Der Mann wurde festgenommen.

In dem Aufsatz von Gebru und Bender sind sechs Autoren angegeben, davon vier Forschende bei Google. Bender bat darum, die übrigen Namen nicht zu nennen, weil negative Folgen für sie zu befürchten seien – sie selbst dagegen habe eine feste Professur, was „den Wert von akademischer Freiheit unterstreicht“, wie sie sagt.

Der Aufsatz sollte eine Bestandsaufnahme der aktuellen Forschung zur Verarbeitung natürlicher Sprache sein, erklärt Bender. „Wir arbeiten in einem Maßstab, in dem die Leute, die diese Sachen entwickeln, die Daten selbst nicht mehr im Griff haben können. Und weil die Vorteile so offensichtlich sind, kommt es besonders darauf an, einen Schritt zurückzutreten und uns zu fragen, was die Nachteile sein könnten. (…) Wie bekommen wir die positiven Seiten und können gleichzeitig die Risiken verringern?“

Als einen der Gründe dafür, dass der Aufsatz die internen Anforderungen nicht erfüllt habe, nannte Googles KI-Chef Dean in seiner E-Mail, darin werde „zu viel relevante Forschung ignoriert“. Konkret würden neuere Arbeiten zu energieeffizienteren Sprachmodellen und zu Maßnahmen gegen Verzerrungen nicht erwähnt. Doch die sechs Autoren berufen sich auf eine breite Basis – mit 128 Einträgen ist die Liste ihrer Quellen sogar auffällig lang. „Das ist die Art von Arbeit, die keine Einzelperson und auch kein Zweier-Team leisten kann“, sagt Bender dazu. „Diese Kooperation war dafür wirklich erforderlich.“

Mit Nicolas Le Roux meldete sich auf Twitter [14] auch ein KI-Forscher aus dem Büro Montreal von Google zu dem Fall zu Wort. Seine Vorschläge für Aufsätze seien stets daraufhin überprüft worden, ob darin sensible Informationen verraten würden, „nie auf die Qualität der Literatur-Recherche“, schrieb er. Gebru und Kollegen hätten Google AI nur einen Tag für die interne Prüfung gelassen, bevor sie den Aufsatz zur Publikation bei einer Konferenz anmeldeten, erklärte außerdem Dean in seiner E-Mail. Das Ziel dort sei, „bei der Strenge und der Sorgfalt der Überprüfung unserer Beiträge vor einer Veröffentlichung wissenschaftlichen Zeitschriften mit Peer Review Konkurrenz zu machen“.

Laut Bender hätte es aber ohnehin noch eine intensive Überprüfung durch Fachkollegen (dafür steht Peer Review) vor der Konferenz gegeben. „Wissenschaft ist stets eine Diskussion und eine sich weiterentwickelnde Arbeit“, sagt sie. Auch andere haben Zweifel an den Behauptungen von Dean geäußert, darunter William Fitzgerald, früherer PR-Manager bei Google. Dass Aufsätze dort regelmäßig intensiv überprüft würden, sei nicht weniger als eine „Lüge“, erklärte er auf Twitter.

Ein Großteil der frühen Forschung, die zu der jüngsten Explosion der Sprachmodelle geführt hat, wurde bei Google geleistet. In seiner KI-Abteilung ist 2016 das Sprachmodell Transformer entstanden [15], das die Grundlage des heutigen BERT-Modells bildet, ebenso wie für GPT-2 und GPT-3 von OpenAI. Und wie erwähnt wird BERT für die Google-Suche genutzt, also für die Cash-Cow des Unternehmens.

Das Vorgehen von Google könne einen „Chilling-Effekt“ auf zukünftige Forschung an KI-Ethik haben, befürchtet Bender. Viele der wichtigsten Experten auf diesem Gebiet arbeiten bei großen IT-Unternehmen, weil dort das nötige Geld vorhanden ist. „Das war in vielerlei Hinsicht hilfreich“, sagt die Professorin. „Aber wir könnten damit in einem Ökosystem enden, das möglicherweise nicht die besten Anreize für den Fortschritt von Wissenschaft für die ganze Welt bietet.“ (sma [16])


URL dieses Artikels:
https://www.heise.de/-4982590

Links in diesem Artikel:
[1] https://twitter.com/timnitGebru/status/1334341991795142667
[2] https://www.technologyreview.com/2020/06/12/1003482/amazon-stopped-selling-police-face-recognition-fight/
[3] https://www.technologyreview.com/2018/02/14/145462/were-in-a-diversity-crisis-black-in-ais-founder-on-whats-poisoning-the-algorithms-in-our/
[4] https://www.platformer.news/p/the-withering-email-that-got-an-ethical
[5] https://twitter.com/JeffDean/status/1334953632719011840
[6] https://twitter.com/timnitGebru/status/1334343577044979712
[7] https://googlewalkout.medium.com/standing-with-dr-timnit-gebru-isupporttimnit-believeblackwomen-6dadc300d382
[8] https://www.technologyreview.com/2019/02/16/66080/ai-natural-language-processing-explained/
[9] https://www.technologyreview.com/2019/02/16/66080/ai-natural-language-processing-explained/
[10] https://blog.google/products/search/search-language-understanding-bert/
[11] https://www.technologyreview.com/2020/07/20/1005454/openai-machine-learning-language-generator-gpt-3-nlp/
[12] https://www.technologyreview.com/2020/08/14/1006780/ai-gpt-3-fake-blog-reached-top-of-hacker-news/
[13] https://www.theguardian.com/technology/2017/oct/24/facebook-palestine-israel-translates-good-morning-attack-them-arrest
[14] https://twitter.com/le_roux_nicolas/status/1334601960972906496
[15] https://arxiv.org/pdf/1706.03762.pdf
[16] mailto:s.mattke@gmail.com