KI-Firmen nutzten Untertitel Tausender YouTube-Videos für Sprachmodell-Training

Tech-Giganten wie Apple, Nvidia und Salesforce haben YouTube-Untertitel abgegriffen für das Training der eigenen KI. Die Videoschaffenden wussten nichts davon.

In Pocket speichern vorlesen Druckansicht 4 Kommentare lesen
Mensch hält durchsichtiges Tablet mit YouTube-Logo

(Bild: metamorworks/Shutterstock.com)

Lesezeit: 4 Min.
Von
  • Frank Schräer

Das Training Künstlicher Intelligenz erfordert enorme Datenmengen, damit die KI vor allem bei Sprachmodellen informiert antworten kann. Zu diesen Trainingsdaten gehören auch Untertitel von YouTube, wie eine unabhängige Untersuchung jetzt herausgefunden hat. Das Abgreifen der Untertitel verstößt nicht nur gegen die Richtlinien des Videodienstes, es erfolgte auch ohne Kenntnis oder Zustimmung der Content-Creator, die diese Videos bei YouTube veröffentlicht haben.

Das ist nicht der erste Fall: Schon im April wurde berichtet, dass ChatGPT mit einer Million Stunden YouTube-Videos trainiert wurde. Dabei soll sich OpenAI mittels einer automatisierten Transkription seinen Vorsprung bei Sprachmodellen verschafft haben. Jetzt haben es sich große Unternehmen wie Apple, Anthropic, Nvidia und Salesforce vereinfacht, indem die bereits verfügbaren Untertitel bei YouTube abgegriffen wurden, sodass die Umwandlung von Sprache in Text nicht mehr notwendig war.

Der für das Training von KI-Sprachmodellen verwendete Datensatz umfasst Video-Transkriptionen schulischer YouTube-Kanäle etwa vom US-amerikanischen MIT oder der Harvard Universität, aber auch vom Wall Street Journal und der BBC. Zudem wurden Untertitel populärer TV-Talkshows von Stephen Colbert, John Oliver und Jimmy Kimmel verwendet sowie von YouTube-Kanälen mit vielen Millionen Abonnenten, berichtet Proof News. Die Datensammlung umfasst zwei Videos von MrBeast, sieben Videos von Marques Brownlee und 337 Videos von PewDiePie.

Die YouTube-Untertitel gehören demnach zu einem Datensatz namens "The Pile", den KI-Forscher von EleutherAI für Open-Source-Sprachmodelle generiert haben. Der Pile enthält aber auch Dokumente des Europäischen Parlaments, Wikipedia-Texte und interne E-Mails des kollabierten US-Konzerns Enron. Die Datensammlung wurde von EleutherAI-Gründer Sid Black angelegt, der die Untertitel von der YouTube-API per Skript abgreift, wie er bei GitHub beschreibt. Dieser Datensatz wird gern von Forschern und Wissenschaftlern für akademische Zwecke genutzt.

Doch nicht nur Akademiker verwenden die Pile-Datensammlung. Apple und Nvidia beschreiben in verschiedenen veröffentlichten Dokumenten, wie sie Pile für das KI-Training nutzen. Im April hatte Apple neue lokale LLMs vorgestellt, darunter die neue Modellfamilie OpenELM (Open-source Efficient Language Models). Die Dokumente zeigen, dass Apple OpenELM anhand der Pile-Daten trainiert hat.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier eine externe Umfrage (Opinary GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Opinary GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Auch Anthropic bestätigt die Verwendung von Pile für das Training der eigenen KI-Modelle wie dem KI-Assistenten Claude. Eine Anthropic-Sprecherin erklärte auf Anfrage, dass Pile eine sehr kleine Auswahl an YouTube-Untertiteln enthält. "Die Bedingungen von YouTube decken die direkte Nutzung der Plattform ab, die sich von der Nutzung des Pile-Datensatzes unterscheidet. Was mögliche Verstöße gegen die Nutzungsbedingungen von YouTube betrifft, müssen wir Sie an die Autoren von The Pile verweisen."

Gegenwärtige Modelle für generative künstliche Intelligenz liefern umso bessere Ergebnisse, je größer das zuvor verarbeitete Trainingsmaterial ist. Anhand der YouTube-Untertitel können KI-Sprachmodelle menschliche Formulierungen lernen, aber auch Profanität. So bemerkten Satesforce-Entwickler, dass der Pile-Datensatz Flüche und Schimpfworte enthält sowie "Vorurteile gegenüber dem Geschlecht und bestimmten religiösen Gruppen".

Die Nutzungsbedingungen YouTubes untersagen den Zugriff auf Videos in automatisierter Form, doch bislang hat der Videodienst die Nutzung des bereits 2020 entwickelten EleutherAI-Skripts zum Abgreifen der Untertitel offenbar nicht unterbunden. Ob Google die Pile-Datensammlung für das Training der eigenen KI-Modelle wie Gemini nutzt, oder ob die YouTube-Untertitel direkt zu diesen Zwecken verwendet werden, ist nicht bekannt.

Die Videoschaffenden sind jedenfalls nicht erfreut, dass Teile ihrer Inhalte ungefragt abgegriffen wurden. "Niemand kam zu mir und sagte: 'Wir würden das gern nutzen'", sagt der Betreiber eines Politikkanals mit über zwei Millionen Abonnenten und mehr als zwei Milliarden Abrufen. Ein anderer Content-Creator bezeichnet es als Diebstahl. Es sei respektlos, keine Zustimmung einzuholen. Denn es würde sich abzeichnen, dass Studios zukünftig generative KI einsetzen, um Menschen durch künstliche Abbilder zu ersetzen.

(fds)