Bericht: ChatGPT wurde mit einer Million Stunden YouTube-Videos trainiert

Mittels einer automatisierten Transkription soll sich OpenAI seinen Vorsprung bei Sprachmodellen verschafft haben. Das könnte diverse Rechte verletzt haben.

147

Millionen Videos von YouTube sollen ChatGPT vorangetrieben haben.

(Bild: metamorworks/Shutterstock.com)

07.04.2024, 19:01 Uhr

Lesezeit: 4 Min.

Von

Nico Ernst

Mittels der KI-Transkriptionssoftware "Whisper" soll OpenAI rund eine Million Stunden Video von YouTube für die Nutzung als Trainingsdaten für ChatGPT aufbereitet haben – ohne die YouTube-Mutter Google respektive Alphabet oder die Ersteller der Clips darüber informiert zu haben. Dies berichtet die New York Times unter Berufung auf mehrere Quellen bei OpenAI, Google und dem Umfeld der Unternehmen.

Demnach soll OpenAI Ende 2021 das Trainingsmaterial ausgegangen sein. Etwas zugespitzt gesagt: Das Internet war alle. Das KI-Start-up hatte bereits alle öffentlich verfügbaren Texte in der englischen Sprache in seine Trainingsdaten überführt. Gegenwärtige Modelle für generative künstliche Intelligenz liefern umso bessere Ergebnisse, je größer das zuvor verarbeitete Trainingsmaterial ist.

Videos by heise

Daher begann OpenAI der Times zufolge damit, über sein Tool "Whisper" massenhaft den Ton von YouTube-Videos in Text zu verwandeln. Auch die Videoplattform selbst bietet automatisch erzeugte Untertitel an, andere Programme wie Adobe Premiere beherrschen dieses Transkribieren inzwischen auch in hoher Qualität. Wie die Zeitung, die sich wegen mutmaßlicher Nutzung ihrer Inhalte für KI-Training derzeit in einem Rechtsstreit mit OpenAI befindet, weiter berichtet, sei das bei Google durchaus aufgefallen.

Google schritt nicht ein

Der Konzern sei aber nicht dagegen vorgegangen, weil er ebenfalls damals schon die Inhalte von YouTube und anderen Diensten wie Google Docs für das Training seiner eigenen KI-Modell benutzt habe. Google sei bewusst gewesen, so die New York Times, dass man selbst dabei möglicherweise die Rechte der Videoschöpfer verletze. Vor allem in den USA gibt es derzeit eine Welle von Klagen und anderen Beschwerden gegen die Nutzung von urheberrechtlich geschütztem Material für KI-Training ohne entsprechende Lizenzvereinbarungen. Allein bei der Bundesbehörde United States Copyright Office sind der Times zufolge im letzten Jahr über 10.000 Beschwerden von Einzelpersonen, Firmen und anderen Organisationen dazu eingegangen.

Lesen Sie auch

Eine runde Dishy-Antenne für Starlink steht in einer Wiese; Montag: Starlink-Falle, DSA-Einspruch, GPU-Kabelneuheit, Sozialstaat-Digitalisierung & Weltraum-Server

Montag: Russland in ukrainischer Starlink-Falle, X-Einspruch gegen DSA-Strafe

Openai,Ceo,Sam,Altman,Attends,The,Artificial,Intelligence(ai),Revolution,Forum, SamAltman

Sam Altman: „Rechenzentren im All sind lächerlich“

OpenAI: Erstes KI-Gadget wird angeblich ein Smart Speaker für 200 bis 300 Dollar

KI-Agenten: Popularität steigt rasant – trotz mangelnder Sicherheit

OpenAI-Chef: KI braucht dringend Regulierung

In den letzten Jahren haben zahlreiche Tech-Unternehmen ihre Nutzungsbedingungen so geändert, dass man vor der Verwendung der Dienste einer Verwendung selbst erstellten Materials für KI-Training zustimmen muss – darunter Google und Facebook. Im Gegenzug verbitten es sich die Unternehmen aber, dass andere Firmen die Daten abgreifen und für eigene Dienste verwenden. OpenAI soll sich in internen Diskussionen vor der Aktion bei YouTube auf das US-amerikanische Rechtskonstrukt des "fair use" berufen haben.

Lizenzierung ist noch die Ausnahme

Weil es, unter anderem durch den AI-Act der EU, immer mehr rechtliche Grenzen für Künstliche Intelligenz gibt, schließen manche Unternehmen inzwischen auch ausdrücklich Lizenzvereinbarungen mit Datenquellen ab. Ein Beispiel ist Reddit, das vor seinem Börsengang ein Abkommen mit Google geschlossen hat. Dabei sollen die Daten der Reddit-Nutzer für 60 Millionen US-Dollar im Jahr Google zur Verfügung gestellt werden.

Während im Übrigen die Zahl von einer Million Stunden YouTube-Video beziehungsweise über 114 Jahren Laufzeit als Trainingsmaterial auf den ersten Blick hoch erscheint, relativiert sich das, weil die Plattform weiter rasant wächst. Bereits 2019 gab Google an, dass in jeder Minute rund 500 Stunden Video bei YouTube hochgeladen werden. Inzwischen dürfte sich das deutlich erhöht haben. Schon ausgehend von diesen älteren Zahlen bedeutet das, dass nach gut 33 Stunden schon wieder über eine Million Stunden neues oder neu bearbeitetes Material erreicht sind. OpenAI dürfte also nur einen sehr kleinen Ausschnitt des Gesamtinhalts verarbeitet haben. Eine bislang unbeantwortete Frage ist daher auch, nach welchen Kriterien dabei ausgewählt wurde.