KI-Firmen nutzten Untertitel Tausender YouTube-Videos fĂĽr Sprachmodell-Training
Tech-Giganten wie Apple, Nvidia und Salesforce haben YouTube-Untertitel abgegriffen fĂĽr das Training der eigenen KI. Die Videoschaffenden wussten nichts davon.
Das Training Künstlicher Intelligenz erfordert enorme Datenmengen, damit die KI vor allem bei Sprachmodellen informiert antworten kann. Zu diesen Trainingsdaten gehören auch Untertitel von YouTube, wie eine unabhängige Untersuchung jetzt herausgefunden hat. Das Abgreifen der Untertitel verstößt nicht nur gegen die Richtlinien des Videodienstes, es erfolgte auch ohne Kenntnis oder Zustimmung der Content-Creator, die diese Videos bei YouTube veröffentlicht haben.
KI-Update abonnieren
Werktägliches Update zu den wichtigsten KI-Entwicklungen, freitags immer mit Deep Dive.​
E-Mail-Adresse
Ausführliche Informationen zum Versandverfahren und zu Ihren Widerrufsmöglichkeiten erhalten Sie in unserer Datenschutzerklärung.
Das ist nicht der erste Fall: Schon im April wurde berichtet, dass ChatGPT mit einer Million Stunden YouTube-Videos trainiert wurde. Dabei soll sich OpenAI mittels einer automatisierten Transkription seinen Vorsprung bei Sprachmodellen verschafft haben. Jetzt haben es sich groĂźe Unternehmen wie Apple, Anthropic, Nvidia und Salesforce vereinfacht, indem die bereits verfĂĽgbaren Untertitel bei YouTube abgegriffen wurden, sodass die Umwandlung von Sprache in Text nicht mehr notwendig war.
Der für das Training von KI-Sprachmodellen verwendete Datensatz umfasst Video-Transkriptionen schulischer YouTube-Kanäle etwa vom US-amerikanischen MIT oder der Harvard Universität, aber auch vom Wall Street Journal und der BBC. Zudem wurden Untertitel populärer TV-Talkshows von Stephen Colbert, John Oliver und Jimmy Kimmel verwendet sowie von YouTube-Kanälen mit vielen Millionen Abonnenten, berichtet Proof News. Die Datensammlung umfasst zwei Videos von MrBeast, sieben Videos von Marques Brownlee und 337 Videos von PewDiePie.
Untertitel-Skript ursprĂĽnglich fĂĽr Open-Source-KI
Die YouTube-Untertitel gehören demnach zu einem Datensatz namens "The Pile", den KI-Forscher von EleutherAI für Open-Source-Sprachmodelle generiert haben. Der Pile enthält aber auch Dokumente des Europäischen Parlaments, Wikipedia-Texte und interne E-Mails des kollabierten US-Konzerns Enron. Die Datensammlung wurde von EleutherAI-Gründer Sid Black angelegt, der die Untertitel von der YouTube-API per Skript abgreift, wie er bei GitHub beschreibt. Dieser Datensatz wird gern von Forschern und Wissenschaftlern für akademische Zwecke genutzt.
Doch nicht nur Akademiker verwenden die Pile-Datensammlung. Apple und Nvidia beschreiben in verschiedenen veröffentlichten Dokumenten, wie sie Pile für das KI-Training nutzen. Im April hatte Apple neue lokale LLMs vorgestellt, darunter die neue Modellfamilie OpenELM (Open-source Efficient Language Models). Die Dokumente zeigen, dass Apple OpenELM anhand der Pile-Daten trainiert hat.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmmung wird hier eine externe Umfrage (Opinary GmbH) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Opinary GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
Auch Anthropic bestätigt die Verwendung von Pile für das Training der eigenen KI-Modelle wie dem KI-Assistenten Claude. Eine Anthropic-Sprecherin erklärte auf Anfrage, dass Pile eine sehr kleine Auswahl an YouTube-Untertiteln enthält. "Die Bedingungen von YouTube decken die direkte Nutzung der Plattform ab, die sich von der Nutzung des Pile-Datensatzes unterscheidet. Was mögliche Verstöße gegen die Nutzungsbedingungen von YouTube betrifft, müssen wir Sie an die Autoren von The Pile verweisen."
KI auf Flüche trainieren – ohne Zustimmung
Gegenwärtige Modelle für generative künstliche Intelligenz liefern umso bessere Ergebnisse, je größer das zuvor verarbeitete Trainingsmaterial ist. Anhand der YouTube-Untertitel können KI-Sprachmodelle menschliche Formulierungen lernen, aber auch Profanität. So bemerkten Satesforce-Entwickler, dass der Pile-Datensatz Flüche und Schimpfworte enthält sowie "Vorurteile gegenüber dem Geschlecht und bestimmten religiösen Gruppen".
Lesen Sie auch
KI-Training: Urheberrechtlich geschĂĽtzter Datensatz von Buchtexten jetzt offline
ChatGPT: New York Times prüft angeblich "potenziell tödliche" Klage gegen OpenAI
KI-Training: 8000 Schriftsteller in den USA fordern Geld von OpenAI &. Co.
KI im Journalismus: Bei den BundesbĂĽrgern ĂĽberwiegen die Bedenken
Gemini 2.0: Googles neues KI-Modell ist multimodal
Die Nutzungsbedingungen YouTubes untersagen den Zugriff auf Videos in automatisierter Form, doch bislang hat der Videodienst die Nutzung des bereits 2020 entwickelten EleutherAI-Skripts zum Abgreifen der Untertitel offenbar nicht unterbunden. Ob Google die Pile-Datensammlung fĂĽr das Training der eigenen KI-Modelle wie Gemini nutzt, oder ob die YouTube-Untertitel direkt zu diesen Zwecken verwendet werden, ist nicht bekannt.
Die Videoschaffenden sind jedenfalls nicht erfreut, dass Teile ihrer Inhalte ungefragt abgegriffen wurden. "Niemand kam zu mir und sagte: 'Wir wĂĽrden das gern nutzen'", sagt der Betreiber eines Politikkanals mit ĂĽber zwei Millionen Abonnenten und mehr als zwei Milliarden Abrufen. Ein anderer Content-Creator bezeichnet es als Diebstahl. Es sei respektlos, keine Zustimmung einzuholen. Denn es wĂĽrde sich abzeichnen, dass Studios zukĂĽnftig generative KI einsetzen, um Menschen durch kĂĽnstliche Abbilder zu ersetzen.
(fds)