Urheberrecht und KI-Training: "In der Tat ein fast schon paradoxer Zustand"
Ist es legal, wenn die KI-Firmen Inhalte von Kreativen ohne Bezahlung zum Training nutzen? Die Professoren Tim Dornis und Sebastian Stober haben das untersucht.
Training generativer KI-Modelle ist kein Text- und Data-Mining. Zu diesem Ergebnis kommt die neue Open-Access-Studie "Urheberrecht und Training generativer KI-Modelle – Technologische und juristische Grundlagen", die von der Initiative Urheberrecht beauftragt wurde. Das ist wichtig, da sich die KI-Firmen unter anderem genau darauf berufen wollen, um Kreativen nichts zahlen zu müssen.
"Wir haben unsere Untersuchung absolut ergebnisoffen begonnen, waren uns dabei vor allem auch bewusst, dass bislang noch nicht umfangreich interdisziplinär auf das Thema geblickt worden war", sagen die Studienautoren Tim W. Dornis und Sebastian Stober. Dornis ist Rechtswissenschaftler und Professor an der juristischen Fakultät der Universität Hannover und hat seinen J.S.M. in Stanford gemacht, Stober ist Professor für Künstliche Intelligenz an der Otto-von-Guericke-Universität Magdeburg.
Neben der Verneinung der sogenannten TDM-Schranke gehen die Forscher außerdem davon aus, dass im Innern der KI-Modelle eine Vervielfältigung von Trainingsdaten und damit von urheberrechtlich geschützten Werken stattfindet. "Das ist für das gerichtliche Vorgehen gegen die Rechtsverletzungen bei KI-Training und KI-Einsatz wichtig", sagen sie. Im Interview mit heise online erläutern Dornis und Stober, was das konkret heißen könnte.
heise online: Herr Stober, Herr Dornis, im Zusammenhang mit der Frage, ob KI-Training in der bisherigen Form gegen das Urheberrecht verstößt, ist immer wieder vom sogenannten Text- und Data-Mining die Rede, unter dass dieses angeblich fällt. Was ist TDM und was sollten seine Nutzungsmöglichkeiten sein?
Sebastian Stober: Beim Data Mining geht es um die automatisierte Extraktion von neuen Informationen, Mustern und Erkenntnissen aus großen Datensammlungen. Beim Text Mining sind das Textsammlungen. Die Nutzungsmöglichkeiten sind dabei sehr vielseitig. Die gewonnenen Erkenntnisse können die Grundlage für Geschäftsmodelle sein – wenn z.B. Märkte und Kundenverhalten analysiert werden. In der Politik wird regelmäßig auf Analysen der öffentlichen Meinung zurückgegriffen, wofür im Hintergrund Text Mining in den sozialen Medien betrieben wird. Auch in der Wissenschaft ist das Data Mining bei praktisch allen datenbasierten Fragestellungen ein wichtiges Werkzeug.
Wie bei jeder Technologie muss der Einsatzzweck jedoch nicht immer positiv für die Gesellschaft sein. Gewonnene Informationen können z.B. auch eingesetzt werden, um Menschen gezielt zu manipulieren, wie sich im Cambridge-Analytica-Skandal gezeigt hat. Hier ist die Gesellschaft aufgefordert, klare Grenzen zu setzen, welche Nutzungsmöglichkeiten nicht erwünscht sind.
Viele KI-Unternehmen denken nun, dass Ihr KI-Training unter die sogenannte TDM-Schranke fällt, weil sie das dem AI Act so zu entnehmen scheinen. Sie halten es also für gesetzlich gedeckt. Dabei entstanden die Wurzeln des AI Act Jahre, bevor es generative KI-Systeme überhaupt gab.
Tim W. Dornis: Ich sehe das auch nicht so. Dem AI Act und den Gesetzgebungsmaterialien kann bei richtiger Auslegung gerade nicht entnommen werden, dass generatives KI-Training unter die TDM-Schranke fallen soll. Bereits der Wortlaut begründet Zweifel. Vor allem aber hätte es einer vertieften Auseinandersetzung mit den Grundlagen und Hintergründen bedurft – gerade mit dem Fokus auf das Urheberrecht.
Das fehlte aber auch noch im Zeitpunkt der Finalisierung des AI Act. Anders gewendet: Wie unsere Untersuchung zeigt, bedarf es einer gründlichen Betrachtung der KI-Technologie. Das wurde bei der bisherigen juristischen Meinungsbildung schlicht vernachlässigt. Nur aus "Bequemlichkeit" und mit dem Argument, alles andere könne die "europäische KI-Innovation" gefährden, darf die Debatte aber an dieser Stelle aber nicht abbrechen. Dennoch scheint das die Tendenz in der gegenwärtigen juristischen Auseinandersetzung.
Warum ist KI-Training denn so viel mehr als TDM? Da grasen doch auch nur Rechner das Internet ab und ziehen RĂĽckschlĂĽsse.
Stober: Zum einen müssen wir hier zwischen dem Datensammeln und dem Training unterscheiden – das wird häufig von unterschiedlichen Akteuren durchgeführt und eine einmal erstellte Datensammlung kann von verschiedensten Akteuren für das Training verschiedenster KI-Modelle verwendet werden.
Zum anderen muss der Begriff des KI-Trainings stärker differenziert werden. In unserer Studie haben wir sehr viel Wert darauf gelegt zu betonen, dass es um das Training generativer KI-Modelle geht. Für das Text- und Data-Mining gibt es Regelungen, die das Sammeln von Daten zum Training von KI-Modellen erlauben. Wir kommen im Gutachten allerdings zu dem Schluss, dass das Training generativer KI-Modelle an sich nicht in den Bereich des Text- und Data-Mining fällt – unter anderem, weil dabei gar keine neuen Erkenntnisse gewonnen werden. Die trainierten Modelle können nur weitere Daten erzeugen, die den Trainingsdaten ähneln. Damit handelt es sich um einen völlig anderen Zweck. Die Ausnahmeregelung greift hier somit nicht und das ist das Problem.
Man kann veröffentlichtes Material, so ist dies gesetzlich vorgesehen, mit einem Vorbehalt gegen TDM versehen. Wäre das nicht eine einfache Lösung?
Dornis: Auf dem Papier ist das scheinbar ein einfacher Weg. Allerdings ist die praktische Umsetzung alles andere als effektiv. Man muss gar nicht so weit gehen, zu fragen, wie mit bereits veröffentlichten Werken (z.B. Büchern) umzugehen ist. Sollen diese nachträglich überall auf der Welt mit Einlegeblättern versehen werden?
Auch für digitale Publikationen wird man davon ausgehen müssen, dass Dinge, sobald sie erst einmal "online" sind, kaum nachträglich lückenlos – und vor allem für Crawler & Co. verständlich – mit einem Vorbehalt versehen werden können. Schließlich bleibt (wie immer) die Frage, ob sich die KI-Entwickler (und ihre Crawler etc.) überhaupt daran halten.
Können Sie sich erklären, wie die KI-Industrie davon ausgehen konnte, dass das Training in seiner aktuellen Form eine Art von Fair Use (den es in Europa ja gar nicht gibt) darstellt? Erst machen, danach entschuldigen, wie es Mark Zuckerberg einst empfahl?
Dornis: Aus juristischer Sicht lässt sich das einfach erklären: Das Mindset im Silicon Valley war schon immer "don’t ask for permission, ask for forgiveness later". Es geht weniger um die Vorstellung von der Rechtmäßigkeit des eigenen Tuns als um die Überzeugung, dass im Interesse der Innovation als einer "guten Sache" eben auch kurzfristige Disruptionen mit den begleitenden Rechtsverstößen möglich sein sollten.
Außerdem konnte sich Silicon Valley ja auch evident auf bereits beschriebene juristische Analyse verlassen. Jedenfalls in Deutschland wurde bereits kurz nach dem Bekanntwerden der Fähigkeiten und Funktionsweise generativer KI die Hypothese vom "Training generativer KI-Modelle = TDM" vertreten. Dem haben sich dann nach und nach immer mehr Publikationen angeschlossen.