OpenAI: KI-Training ohne urheberrechtsgeschütztes Material "unmöglich"

Wenn man auf urheberrechtlich geschütztes Material verzichten müsste, könnte man keine zeitgemäße KI trainieren, meint OpenAI. Das sei aber ohnehin nicht nötig.

39

(Bild: MR Gao/Shutterstock.com)

09.01.2024, 08:30 Uhr

Lesezeit: 2 Min.

Von

Martin Holland

Das Training von KI-Sprachmodellen wie ChatGPT wäre ohne einen Zugriff auf urheberrechtsgeschützte Materialien "unmöglich", die Beschränkung auf urheberrechtsfreie Inhalte wäre nicht mehr als ein interessantes Experiment. Das meint OpenAI in einer Stellungnahme gegenüber dem britischen Parlament. Die wurde bereits Anfang Dezember abgegeben, aber erst jetzt öffentlich.

Die KI-Firma weist darin darauf hin, dass das Urheberrecht heutzutage so gut wie alle menschlichen Äußerungen abdecke – "inklusive Blogeinträge, Fotos, Foreneinträge, Teile von Quellcode und Regierungsdokumente" – weswegen ein Ausschluss derart geschützter Inhalte nicht möglich sei. Man gehe aber davon aus, dass das KI-Training keinen Urheberrechtsverstoß darstelle.

Lesen Sie auch

Digitales Freiwild: Urheberrecht in Zeiten der KI

Gegenwehr anfangs nicht möglich

Das Eingeständnis von OpenAI ist Teil der Debatte über das Verhältnis von KI zum Urheberrecht, die zuletzt noch einmal an Fahrt gewonnen hat. Ende Dezember hat die New York Times Klage gegen OpenAI eingereicht und wirft dem US-Unternehmen darin vor, mit dem KI-Training Urheberrecht verletzt zu haben. Gegenüber dem britischen House of Lords hatte OpenAI da bereits auf die Einschätzung verwiesen, dass das KI-Training nicht gegen das Urheberrecht verstoße.

Gleichzeitig verweist das Unternehmen darauf, dass es Betreibern von Webseiten trotzdem die Möglichkeit gebe, Inhalte für das Training zu sperren. Die gibt es aber erst seit 2023, vorher konnte etwa die New York Times gar nicht verhindern, dass eigene Inhalte für das Training von ChatGPT & Co. genutzt wurden.

Videos by heise

OpenAI führt inzwischen Verhandlungen mit dutzenden Verlagen über die Lizenzierung der Inhalte. Ohne Zugriff auf aktuelle Texte und andere Medien ließen sich keine KI-Systeme erstellen, die "die Anforderungen der Bürger und Bürgerinnen von heute erfüllen", schreibt die Firma noch. Würde man sich beim Training lediglich auf Inhalte beschränken, die unter Public Domain fallen, wäre das höchstens ein interessantes Experiment. Solche Inhalte sind zumeist mehr als ein Jahrhundert alt und beispielsweise in Bezug auf die Sprache längst nicht mehr aktuell.