Von Arte bis ZDF: Runway trainiert KI mit YouTube-Videos

Runway muss sich den Vorwurf der Piraterie gefallen lassen: Sie haben Tausende YouTube-Videos für das Training der generativen Gen-3 Video KI benutzt.

25

(Bild: metamorworks / Shutterstock.com)

31.07.2024, 08:23 Uhr

Lesezeit: 3 Min.

Von

Maximilian F. Becker

Die vor wenigen Wochen veröffentlichte Alpha der generative Video KI Gen-3 von Runway wurde offenbar mit YouTube-Videos großer Kanäle trainiert. Auch Filme sollen über Piraterie-Seiten genutzt worden sein. Die Anschuldigungen basieren auf internen Dokumenten und Tabellen von Runway, die 404media zugespielt wurden. Sie zeigen hunderte Links zu Content-Erstellern und einzelnen Videos auf YouTube. Betroffen sind Kanäle aller Art, von Tech-YouTube Größen wie MKBHD, über Unternehmen wie Sony oder ARRI bis zu Kanälen des öffentlich-rechtlichen Rundfunks in Deutschland wie ARTE. Die Liste selbst beweist allerdings nicht, dass alle Inhalte auch tatsächlich genutzt wurden.

"Die Kanäle in der Tabelle waren eine firmenübergreifenden Bemühung, qualitativ hochwertige Videos zum Training der KI zu finden", sagte ein ehemaliger Mitarbeiter gegenüber 404media. Videos herunterzuladen und zum Training einer KI zu verwenden, widerspricht jedoch den Nutzungsrichtlinien von YouTube, wie der Plattformbetreiber Google wiederholt gesagt hat. Um die Inhalte zu verwenden, soll Runway die Videos über die Open-Source-Software YouTube-DL gesammelt haben. Das Proxy-Tool hilft dabei, Sperrungen durch Google zu umgehen.

Ghibli Studios unfreiwilliges Trainingsmaterial

Runway profitiert wie auch andere Unternehmen vom anhaltenden KI-Hype. Letztes Jahr sammelte das Unternehmen knapp 141 Millionen US-Dollar von Investoren (rund 130 Millionen Euro), darunter Google selbst. Mit seiner Video-KI steht Runway in direkter Konkurrenz zu Modellen wie Sora von OpenAI. Auch dieses Modell soll mit allen öffentlich verfügbaren Inhalten aus dem Internet trainiert worden sein.

Videos by heise

Die von 404media veröffentlichten Daten legen nahe, dass Runway neben YouTube auch Webseiten zur Piraterie von Filmen und Serien als Trainingsquellen genutzt hat. In der veröffentlichten Tabelle finden sich unter "Non-YouTube Sources" Links zu einer Sammlung der Studio Ghibli Filme oder zu verschiedenen illegalen Anime-Streaming Seiten.

KI-Anbieter greifen für das Training ihrer Sprachmodelle auf Quellen aus dem Internet zurück. Lange ist dies ohne das Wissen der Webseitenbetreiber geschehen. Inzwischen schließen zahlreiche Medien und Inhalteersteller die Crawler der KI-Anbieter aus. Nicht immer halten sich diese an die robots.txt-Datei, die den Zugriff regeln soll. Auch Anthropic ist gerade erst beschuldigt worden, unrechtmäßig Inhalte aus dem Internet für das Training der eigenen KI-Modelle genutzt zu haben. Sie sollen ohne Rücksicht auf Nutzungsrichtlinien verschiedene Webseiten wie iFixit.com oder freelancer.com genutzt haben.

Grundsätzlich ist die Frage nach dem Urheberrecht und der Nutzung von Inhalten für Trainingszwecke fragwürdig. Unternehmen wie OpenAI beginnen darum, Lizenzverträge abzuschließen, in Deutschland beispielsweise mit dem Axel Springer Verlag.

Es entsteht derzeit ein regelrechter Kampf um die Daten und Inhalte. Um immer größere KI-Modelle entwickeln zu können, bedarf es auch immer mehr Daten.