Daten von ChatGPT zum Training von Bard genutzt – Google dementiert

Ein Google-Forscher hatte die Nutzung von ChatGPT-Daten zum Training des Konkurrenzprodukts Bard kritisiert und wechselte zu OpenAI. Google dementiert Vorwurf.

6

(Bild: Daniel Jedzura/Shutterstock.com)

30.03.2023, 10:35 Uhr

Lesezeit: 5 Min.

Developer

Von

Silke Hahn

Google soll Output von ChatGPT genutzt haben, um das eigene Konkurrenzprodukt Bard zu trainieren: Dem KI-Ingenieur Jacob Devlin fiel Ende 2022 auf, dass das für den Chatbot zuständige Google-interne Forschungsteam wohl im großen Stil Gesprächsverläufe von ChatGPT zum Training von Bard nutzte. Laut einem Bericht von The Information habe er daraufhin die Geschäftsführung seines damaligen Arbeitgebers Google über die Beobachtung informiert und das Verwenden von ShareGPT kritisiert. Nachdem Devlin seine Bedenken mit Sundar Pichai, dem CEO von Alphabet, und Jeff Dean, dem Leiter von Google Brain, sowie Führungskräften des Bard-Teams geteilt hatte, verließ er demzufolge das Unternehmen – und ging zu OpenAI.

ShareGPT hostet Chatdaten, die Google genutzt haben soll

Die Website ShareGPT fungiert als Repository für ChatGPT-Konversationen und speichert zum jetzigen Zeitpunkt mehr als 100.000 Chatlogs. Google habe nach Devlins Hinweisen die Nutzung von ChatGPT-Daten eingestellt, heißt es in dem Bericht. Google-Mitarbeiter hätten demzufolge Bedenken gehabt, dass dieser Einsatz die Richtlinien von OpenAI zur Nutzung von dessen Chatbot verletze. Devlin soll noch im Januar die Seiten gewechselt haben und seither in der KI-Forschung bei OpenAI arbeiten. In den vergangen Monaten soll OpenAI Google bereits öfter KI-Forscher abgeworben haben. Zunächst wollten sich weder Google noch OpenAI öffentlich zu dem Fall äußern. Zwischenzeitlich hat Google ein Dementi nachgelegt: Das Unternehmen streitet die Nutzung von ShareGPT- und ChatGPT-Daten zum Training von Bard laut The Verge ab.

Nach der Veröffentlichung von ChatGPT durch das maßgeblich von Microsoft finanzierte Unternehmen OpenAI hatte Google intern die Alarmstufe Rot ausgerufen und Forschungsteams verschiedener Bereiche zusammengezogen, um mit vereinten Kräften der Konkurrenz durch eigene KI-Produkte etwas entgegenzusetzen und die Markteinführung des ChatGPT-Konkurrenten Bard zu beschleunigen. Seither sollen die bislang separat agierenden KI-Schwesterabteilungen Google Brain und DeepMind zur Zusammenarbeit verpflichtet worden sein, wie es in The Information heißt. Projekt Gemini gilt als eine "Zwangsehe": Googles Mutterkonzern Alphabet hatte 2014 das Start-up DeepMind gekauft, das unter der Führung seines Gründers Demis Hassabis bisher jedoch weitgehend eigenständig forschte und auftrat.

Projekt Gemini: Googles KI-Töchter zur Kooperation verpflichtet

Projekt Gemini soll an einem großen Sprachmodell arbeiten, das bis zu einer Billion Parameter umfasst. Da im Gegensatz dazu OpenAI in seinem Technical Report keine Informationen zur Architektur, Größe und zu den verwendeten Trainingsdaten preisgibt, tappen die Forschungsgemeinschaft, konkurrierende Unternehmen und die interessierte Öffentlichkeit über GPT-4 und damit auch ChatGPT weitgehend im Dunklen.

Andere Teams von Google seien weiterhin dabei, eigene große Sprachmodelle weiterzuentwickeln. Das Unternehmen ist dabei, KI-Anwendungen in die eigenen Produktlinien zu integrieren, so wie Microsoft es mit der OpenAI-KI über sein gesamtes Portfolio macht. Auch Google bietet Clouddienste an und hat begonnen, KI-Funktionen in Workspaces zu implementieren.

Einigen ebenfalls prominenten Fachleuten geht der Ansatz in die falsche Richtung: So brauche es mehr Umsicht und Vorsicht beim Deployment von KI, ein generelles Forschungsverbot an großen Sprachmodellen hingegen könnte vorhandene Risiken nicht eindämmen. Laut Joscha Bach, Toby Walsh, Pedro Domingos, Yann LeCun und anderen steht bei dem Brief das falsche Argument im Zentrum: Die Modelle seien zum jetzigen Zeitpunkt nicht zu schlau, sondern noch "zu dumm", und daher müsse im Gegenteil die KI-Forschung eher noch beschleunigt werden. Auch die durch ihren Rauswurf bei Google bekannte KI-Ethik-Forscherin Timnit Gebru äußerte sich kritisch, allerdings aus anderen Gründen.

Ethikrat und Sci-Fi-KI-Risiken

Wer sich weiterführend für die Fragen und Argumente im Umgang mit KI interessiert, kann eine Stellungnahme des Deutschen Ethikrates von Ende März nachlesen: "Mensch und Maschine – Herausforderungen durch Künstliche Intelligenz". Einen Kontrapunkt zur Forderung nach einer kompletten Zwangspause für KI-Entwicklung setzt der Newsletter "AI Snake Oil", der die meisten ins Treffen geführten Gegenargumente umfasst: "A misleading open letter about sci-fi AI dangers ignores the real risks".

Marktmacht und Monopolbildung: Wettlauf mit der Zeit

Der aktuelle Wettlauf großer Tech-Konzerne und Plattformanbieter um den größten Marktanteil bei der Grundlagentechnologie KI wird von vielen mit Sorge beobachtet. So hinken Regulierungsbestrebungen wie der EU AI Act nach und könnten durch das Inkrafttreten je nach Gestaltung der Verordnung Europa weiter ins Hintertreffen führen. Global gesehen haben kleinere Anbieter dem Kampf der Giganten wegen deren Marktdurchdringung derzeit wenig entgegenzusetzen. In Deutschland hat das Bundeskartellamt Ende März gegen Microsoft ein Verfahren wegen Missbrauch seiner Marktmacht eingeleitet – das betrifft den Bereich KI zwar nicht vordergründig, aber die Implementierung von KI-Anwendungen über das gesamte Produktportfolio spielt bei der Fragen nach Wettbewerbsverzerrung durchaus eine Rolle.

Prominente Tech-Vertreter wie Elon Musk, Steve Wozniak, Mark Tegmark und Wissenschaftler wie Gary Marcus fordern zurzeit in einem offenen Brief eine Zwangspause für die Entwicklung großer Sprachmodelle, bis die Risiken für die Menschheit besser einschätzbar seien. Den Forderungen schlossen sich auch einige hochrangige Google-Forscher an, unter anderem der Geschäftsführer von DeepMind, Demis Hassabis. Der Brief ist von dem durch Elon Musk finanzierten "The Future of Life"-Institut getragen und spaltet zurzeit auch die Kritiker des KI-Wettrennens.

Phänomene wie die von Google möglicherweise genutzte Abkürzung des Trainings durch KI-generierte Trainingsdaten eines Konkurrenzprodukts stehen exemplarisch für die Überforderung selbst großer Anbieter mit dem rasenden Tempo der Entwicklung. Die Investigativreporter von The Information haben einen Auszug ihres Berichts auf Twitter geteilt.

(sih)