Gesetzesvorhaben in den USA fordert Offenlegung der KI-Trainingsdaten

Trainingsdaten von KI-Modellen sollen offen gelegt werden, urheberrechtlich geschütztes Material offenbart – das fordert eine Initiative eines US-Demokraten.

In Pocket speichern vorlesen Druckansicht 23 Kommentare lesen
Ein Kopf hinter einer durchsichtigen Weltkugel.

(Bild: metamorworks/Shutterstock.com)

Lesezeit: 3 Min.

Eine Gesetzesvorlage aus den USA besagt, dass alle Trainingsdatensets, die für das Training von KI-Modellen genutzt werden, offengelegt werden müssen. Konkret sollen sie einer Behörde zur Urheberrechts-Registrierung vorgelegt werden. Das beträfe also nicht nur die KI-Anbieter selbst, sondern auch jene Anbieter von Datensets, die über Crawler Material aus dem Internet zusammensammeln oder aus einzelnen Quellen bestücken.

Die Initiative geht vom Demokraten Adam Schiff aus Kalifornien aus, sein Vorschlag nennt sich "Generative KI Urheberrecht Offenlegungs-Gesetz". Zur Begründung heißt es noch etwas weiter gefasst: "Eine Mitteilung an das Register für Urheberrechte zu verlangen in Bezug auf urheberrechtlich geschützte Werke, die beim Aufbau generativer KI-Systeme und für andere Zwecke verwendet werden."

Demnach sollen alle Quellen eines Datensets, gegebenenfalls samt URL, an die Behörde geleitet werden. Auch Änderungen müssen freilich gemeldet werden. Mindestens 30 Tage bevor ein KI-Modell veröffentlicht werden soll, müssen die Anbieter die Liste vorlegen. Das Gesetz betrifft allerdings keine bereits auf dem Markt befindlichen KI-Modelle – solange keine Änderungen vorgenommen werden.

Das gefährdet zumindest nicht das Dasein von ChatGPT und Co. Was sich anders mit einer Klage der New York Times verhält, die an der Existenz des Chatbots kratzt. Der Verlag wirft OpenAI vor, urheberrechtlich geschütztes Material unzulässigerweise verwendet zu haben. Sie fordern Millionen Nachzahlungen dafür und gegebenenfalls das Löschen der betroffenen Daten, was nachträglich kaum möglich ist. Anderen Verlagen, etwa Axel Springer, hat OpenAI inzwischen Millionen gezahlt, um auf deren Archive zugreifen zu dürfen. Allerdings erst nach dem großen Erfolg von ChatGPT und den dahinter stehenden großen Sprachmodellen.

Schiffs Gesetzesvorhaben entspricht auch den Hoffnungen weiterer Autoren, Musiker, Maler, Fotografen, Kunstschaffenden und Kreativen, die kritisieren, wie KI-Unternehmen ihre Werke genutzt haben. Dabei ist rechtlich noch unklar, ob die Verwendung überhaupt das Urheberrecht betrifft. Es gibt Stimmen, die sagen, beim Training handele es sich um die gleichen Vorgehensweisen wie etwa bei der Google-Suche. Maschinelles Auslesen ist demnach erlaubt. Daten werden nicht anderswo gespeichert. Andere gehen davon aus, dass es Urheberrechtsverletzungen sind, nicht nur, weil die Daten zum Training genutzt wurden, sondern auch wegen des Outputs. Die New York Times erklärt beispielsweise, dass ChatGPT ganze Artikel wiedergegeben hat, die eigentlich hinter einer Paywall stecken.

Entsprechend bekommt das Gesetzesvorhaben aus Kalifornien viel Zuspruch von Organisationen und Vereinigungen verschiedener Urheberrechte-Inhaber.

In den USA gibt es bereits ein Dekret, das Joe Biden erließ, das sich allerdings zunächst an die jeweiligen Behörden und ihre Einflussbereiche gerichtet hat. Entwickler werden darin verpflichtet, ihre KI-Modelle vor der Veröffentlichung zu testen und die Ergebnisse den Behörden mitzuteilen. Das gilt zumindest für Systeme, die eine Gefahr für die nationale Sicherheit, die Wirtschaft oder die öffentliche Gesundheit darstellen können. Nun gibt es einen weiteren Erlass, der den Einsatz von KI-Tools direkt in den Behörden regelt. Unter anderem müssen die Behörden Wege finden, um Biases in Algorithmen zu entschärfen. Sie müssen außerdem sicherstellen, dass die KI-Systeme, die sie nutzen, die Rechte und Sicherheit der US-Bürger nicht gefährden.

(emw)