KI-Firmen nutzten Untertitel Tausender YouTube-Videos für Sprachmodell-Training

Tech-Giganten wie Apple, Nvidia und Salesforce haben YouTube-Untertitel abgegriffen für das Training der eigenen KI. Die Videoschaffenden wussten nichts davon.

39

(Bild: metamorworks/Shutterstock.com)

17.07.2024, 04:32 Uhr

Lesezeit: 4 Min.

Von

Frank Schräer

Das Training Künstlicher Intelligenz erfordert enorme Datenmengen, damit die KI vor allem bei Sprachmodellen informiert antworten kann. Zu diesen Trainingsdaten gehören auch Untertitel von YouTube, wie eine unabhängige Untersuchung jetzt herausgefunden hat. Das Abgreifen der Untertitel verstößt nicht nur gegen die Richtlinien des Videodienstes, es erfolgte auch ohne Kenntnis oder Zustimmung der Content-Creator, die diese Videos bei YouTube veröffentlicht haben.

KI-Update abonnieren

Werktägliches Update zu den wichtigsten KI-Entwicklungen, freitags immer mit Deep Dive.

Ausführliche Informationen zum Versandverfahren und zu Ihren Widerrufsmöglichkeiten erhalten Sie in unserer Datenschutzerklärung.

Das ist nicht der erste Fall: Schon im April wurde berichtet, dass ChatGPT mit einer Million Stunden YouTube-Videos trainiert wurde. Dabei soll sich OpenAI mittels einer automatisierten Transkription seinen Vorsprung bei Sprachmodellen verschafft haben. Jetzt haben es sich große Unternehmen wie Apple, Anthropic, Nvidia und Salesforce vereinfacht, indem die bereits verfügbaren Untertitel bei YouTube abgegriffen wurden, sodass die Umwandlung von Sprache in Text nicht mehr notwendig war.

Der für das Training von KI-Sprachmodellen verwendete Datensatz umfasst Video-Transkriptionen schulischer YouTube-Kanäle etwa vom US-amerikanischen MIT oder der Harvard Universität, aber auch vom Wall Street Journal und der BBC. Zudem wurden Untertitel populärer TV-Talkshows von Stephen Colbert, John Oliver und Jimmy Kimmel verwendet sowie von YouTube-Kanälen mit vielen Millionen Abonnenten, berichtet Proof News. Die Datensammlung umfasst zwei Videos von MrBeast, sieben Videos von Marques Brownlee und 337 Videos von PewDiePie.

Untertitel-Skript ursprünglich für Open-Source-KI

Die YouTube-Untertitel gehören demnach zu einem Datensatz namens "The Pile", den KI-Forscher von EleutherAI für Open-Source-Sprachmodelle generiert haben. Der Pile enthält aber auch Dokumente des Europäischen Parlaments, Wikipedia-Texte und interne E-Mails des kollabierten US-Konzerns Enron. Die Datensammlung wurde von EleutherAI-Gründer Sid Black angelegt, der die Untertitel von der YouTube-API per Skript abgreift, wie er bei GitHub beschreibt. Dieser Datensatz wird gern von Forschern und Wissenschaftlern für akademische Zwecke genutzt.

Doch nicht nur Akademiker verwenden die Pile-Datensammlung. Apple und Nvidia beschreiben in verschiedenen veröffentlichten Dokumenten, wie sie Pile für das KI-Training nutzen. Im April hatte Apple neue lokale LLMs vorgestellt, darunter die neue Modellfamilie OpenELM (Open-source Efficient Language Models). Die Dokumente zeigen, dass Apple OpenELM anhand der Pile-Daten trainiert hat.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier eine externe Umfrage (Opinary GmbH) geladen.

Umfragen immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Opinary GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Auch Anthropic bestätigt die Verwendung von Pile für das Training der eigenen KI-Modelle wie dem KI-Assistenten Claude. Eine Anthropic-Sprecherin erklärte auf Anfrage, dass Pile eine sehr kleine Auswahl an YouTube-Untertiteln enthält. "Die Bedingungen von YouTube decken die direkte Nutzung der Plattform ab, die sich von der Nutzung des Pile-Datensatzes unterscheidet. Was mögliche Verstöße gegen die Nutzungsbedingungen von YouTube betrifft, müssen wir Sie an die Autoren von The Pile verweisen."

KI auf Flüche trainieren – ohne Zustimmung

Gegenwärtige Modelle für generative künstliche Intelligenz liefern umso bessere Ergebnisse, je größer das zuvor verarbeitete Trainingsmaterial ist. Anhand der YouTube-Untertitel können KI-Sprachmodelle menschliche Formulierungen lernen, aber auch Profanität. So bemerkten Satesforce-Entwickler, dass der Pile-Datensatz Flüche und Schimpfworte enthält sowie "Vorurteile gegenüber dem Geschlecht und bestimmten religiösen Gruppen".

Lesen Sie auch

KI-Training: Urheberrechtlich geschützter Datensatz von Buchtexten jetzt offline

ChatGPT: New York Times prüft angeblich "potenziell tödliche" Klage gegen OpenAI

KI-Training: 8000 Schriftsteller in den USA fordern Geld von OpenAI &. Co.

mechanische Schreibmaschine mit eingespanntem Formular steht auf einem Tisch

KI im Journalismus: Bei den Bundesbürgern überwiegen die Bedenken

Gemini 2.0: Googles neues KI-Modell ist multimodal

Die Nutzungsbedingungen YouTubes untersagen den Zugriff auf Videos in automatisierter Form, doch bislang hat der Videodienst die Nutzung des bereits 2020 entwickelten EleutherAI-Skripts zum Abgreifen der Untertitel offenbar nicht unterbunden. Ob Google die Pile-Datensammlung für das Training der eigenen KI-Modelle wie Gemini nutzt, oder ob die YouTube-Untertitel direkt zu diesen Zwecken verwendet werden, ist nicht bekannt.

Die Videoschaffenden sind jedenfalls nicht erfreut, dass Teile ihrer Inhalte ungefragt abgegriffen wurden. "Niemand kam zu mir und sagte: 'Wir würden das gern nutzen'", sagt der Betreiber eines Politikkanals mit über zwei Millionen Abonnenten und mehr als zwei Milliarden Abrufen. Ein anderer Content-Creator bezeichnet es als Diebstahl. Es sei respektlos, keine Zustimmung einzuholen. Denn es würde sich abzeichnen, dass Studios zukünftig generative KI einsetzen, um Menschen durch künstliche Abbilder zu ersetzen.

(fds)

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}

KI-Firmen nutzten Untertitel Tausender YouTube-Videos für Sprachmodell-Training

KI-Update abonnieren

KI-Update abonnieren

Untertitel-Skript ursprünglich für Open-Source-KI

Empfohlener redaktioneller Inhalt

KI auf Flüche trainieren – ohne Zustimmung

Lesen Sie auch

KI-Training: Urheberrechtlich geschützter Datensatz von Buchtexten jetzt offline

ChatGPT: New York Times prüft angeblich "potenziell tödliche" Klage gegen OpenAI

KI-Training: 8000 Schriftsteller in den USA fordern Geld von OpenAI &. Co.

KI im Journalismus: Bei den Bundesbürgern überwiegen die Bedenken

Gemini 2.0: Googles neues KI-Modell ist multimodal

Spiele

1 Monat gratis lesen.Jetzt 1 Monat gratis lesen.

Das digitale Abo für IT und Technik.

E-Mail-Adresse

Untertitel-Skript ursprünglich für Open-Source-KI

Empfohlener redaktioneller Inhalt

KI auf Flüche trainieren – ohne Zustimmung

1 Monat gratis lesen.Jetzt 1 Monat gratis lesen.

Das digitale Abo für IT und Technik.