Künftige KI-Modelle potenziell von Demenz bedroht

Eine neue Studie befasst sich mit der Frage, wie es sich auf Künstliche Intelligenz auswirkt, wenn sie künftig stärker anhand von KI-generierten Texten lernt.

In Pocket speichern vorlesen Druckansicht 114 Kommentare lesen
Education,Technology,Concept.,Edtech.,Ai,(artificial,Intelligence).

(Bild: metamorworks/Shutterstock.com)

Lesezeit: 2 Min.
Von
  • Erich Moechel

Von Menschen erstellte Datensätze werden im KI-Zeitalter immer wichtiger. Zu diesem Schluss kommt eine britische Studie von Wissenschaftlern der Universitäten Oxford, Cambridge und London. Genau solche Datensätze könnten aber zur Mangelware werden. Die heute gängigen großen Sprachmodelle (Large Language Models, LLMs) inklusive GPT-4 wurden noch vorwiegend an von Menschen generierten Datensätzen aus dem Netz trainiert. Nach einem zweiten Lerndurchgang mit menschlichem Feedback zur Feinabstimmung funktionieren solche KI-Anwendungen durchaus gut, konstatieren die Autoren der Studie.

Ein solcher Lernprozess werde aber angesichts der raschen Verbreitung von KI-generierten Texten im Netz zukünftig nicht mehr so einfach möglich sein. Die nächste Generation von KI-Anwendungen werde unweigerlich auch an Datensätzen im Netz trainiert, die nicht von Menschen, sondern von früheren KI-Anwendungen erstellt wurden. "Genauso wie wir die Weltmeere mit Plastikmüll und die Atmosphäre mit CO₂ verdreckt haben, sind wir jetzt dabei, das Internet mit Blah zu füllen." Das löse unumkehrbare Defekte aus, die in Folge ein daran trainiertes KI-Modell kollabieren ließen, heißt es in der Studie.

Nach mehreren solchen Iterationen gingen nämlich alle Verbindungen zum ursprünglichen Inhalt vollständig verloren und danach werde nur noch Textmüll produziert, schreiben die Autoren der Studie "Der Fluch der Rekursion". Training von KI-Anwendungen an künstlich generierten Daten mache die "Künstliche Intelligenz" nämlich vergesslich.

Die Nutzung menschlich generierter Daten ist jedoch konfliktträchtig, wie ein aktuelles Beispiel zeigt: In den USA läuft seit Ende Juni eine erste Sammelklage einer großen Anwaltsfirma aus Kalifornien gegen OpenAI und Microsoft wegen des massenhaften Abzugs von privaten Benutzerdaten aus dem Internet. Für das Training der KI-Anwendung ChatGPT seien Daten im Umfang von 300 Milliarden Wörtern ohne Einwilligung aus dem Netz abgegriffen worden, heißt es in der Klageschrift. Die Sammelklage gegen den systematischen Datenabzug in den USA wird im Namen von 16 Klägern geführt, die in der Klageschrift allerdings nur mit ihren Initialen gelistet sind. Insgesamt wird ein Schadenersatz von drei Milliarden Dollar verlangt.

(mki)