Künftige KI-Modelle potenziell von Demenz bedroht

Eine neue Studie befasst sich mit der Frage, wie es sich auf Künstliche Intelligenz auswirkt, wenn sie künftig stärker anhand von KI-generierten Texten lernt.

114

(Bild: metamorworks/Shutterstock.com)

07.07.2023, 12:34 Uhr

Lesezeit: 2 Min.

Von

Erich Moechel

Von Menschen erstellte Datensätze werden im KI-Zeitalter immer wichtiger. Zu diesem Schluss kommt eine britische Studie von Wissenschaftlern der Universitäten Oxford, Cambridge und London. Genau solche Datensätze könnten aber zur Mangelware werden. Die heute gängigen großen Sprachmodelle (Large Language Models, LLMs) inklusive GPT-4 wurden noch vorwiegend an von Menschen generierten Datensätzen aus dem Netz trainiert. Nach einem zweiten Lerndurchgang mit menschlichem Feedback zur Feinabstimmung funktionieren solche KI-Anwendungen durchaus gut, konstatieren die Autoren der Studie.

Lesen Sie auch

Gpt4,Improved,Chatbot,Illustrations.,Artificial,Intelligence,Chatbot.chat,Gpt,4,Illustration

OpenAI gibt API für GPT-4 allgemein frei und schaltet im Januar alte Modelle ab

Demenz durch Training an KI-Daten

Ein solcher Lernprozess werde aber angesichts der raschen Verbreitung von KI-generierten Texten im Netz zukünftig nicht mehr so einfach möglich sein. Die nächste Generation von KI-Anwendungen werde unweigerlich auch an Datensätzen im Netz trainiert, die nicht von Menschen, sondern von früheren KI-Anwendungen erstellt wurden. "Genauso wie wir die Weltmeere mit Plastikmüll und die Atmosphäre mit CO₂ verdreckt haben, sind wir jetzt dabei, das Internet mit Blah zu füllen." Das löse unumkehrbare Defekte aus, die in Folge ein daran trainiertes KI-Modell kollabieren ließen, heißt es in der Studie.

Nach mehreren solchen Iterationen gingen nämlich alle Verbindungen zum ursprünglichen Inhalt vollständig verloren und danach werde nur noch Textmüll produziert, schreiben die Autoren der Studie "Der Fluch der Rekursion". Training von KI-Anwendungen an künstlich generierten Daten mache die "Künstliche Intelligenz" nämlich vergesslich.

Lesen Sie auch

Künstlerische Darstellung eines transparenten Menschenkopfes (mit Hals und Schultern); im Kopf schwebt eine blaue Erdkugel

Künstliche Intelligenz: Drei Beispiele für das Scheitern von Algorithmen

Sammelklage gegen OpenAI und Microsoft

Die Nutzung menschlich generierter Daten ist jedoch konfliktträchtig, wie ein aktuelles Beispiel zeigt: In den USA läuft seit Ende Juni eine erste Sammelklage einer großen Anwaltsfirma aus Kalifornien gegen OpenAI und Microsoft wegen des massenhaften Abzugs von privaten Benutzerdaten aus dem Internet. Für das Training der KI-Anwendung ChatGPT seien Daten im Umfang von 300 Milliarden Wörtern ohne Einwilligung aus dem Netz abgegriffen worden, heißt es in der Klageschrift. Die Sammelklage gegen den systematischen Datenabzug in den USA wird im Namen von 16 Klägern geführt, die in der Klageschrift allerdings nur mit ihren Initialen gelistet sind. Insgesamt wird ein Schadenersatz von drei Milliarden Dollar verlangt.

(mki)

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}

Künftige KI-Modelle potenziell von Demenz bedroht

Lesen Sie auch

OpenAI gibt API für GPT-4 allgemein frei und schaltet im Januar alte Modelle ab

Demenz durch Training an KI-Daten

Lesen Sie auch

Künstliche Intelligenz: Drei Beispiele für das Scheitern von Algorithmen

Sammelklage gegen OpenAI und Microsoft

Spiele

1 Monat gratis lesen.Jetzt 1 Monat gratis lesen.

Das digitale Abo für IT und Technik.