ChatGPT: Warum KI-Erkennungswerkzeuge so leicht zu betrĂĽgen sind

Verschiedene Programme nutzen KI, um von anderen KIs generierte Texte zu erkennen. Leider schneiden sie in der Praxis schlecht ab.

In Pocket speichern vorlesen Druckansicht 12 Kommentare lesen

(Bild: Erstellt mit Midjourney durch MIT Technology Review)

Lesezeit: 7 Min.
Von
  • Rhiannon Williams
Inhaltsverzeichnis

Bereits kurz nach dem Start von ChatGPT wurde befürchtet, dass Schüler und Studenten den Chatbot nutzen könnten, um sich in Sekundenschnelle passable Aufsätze erstellen zu lassen, die sie dann als Hausarbeiten einreichen könnten. Unbegründet ist die Angst nicht, spuckt das OpenAI-Werkzeug – ähnlich wie einige seiner Konkurrenten – doch erstaunlich gute Texte aus. Kein Wunder also, dass sich mehrere Start-ups darum bemühen, Software zu entwickeln, deren Zweck es ist, KI-generierte Texte zu erkennen.

Das Problem ist allerdings, dass es relativ einfach ist, diese Tools auszutricksen und die Erkennung zu umgehen. Zu diesem Ergebnis kommt eine neue Studie, die bislang allerdings noch keinem Peer-Review unterzogen wurde. Debora Weber-Wulff, Professorin für Medien und Informatik an der Hochschule für Technik und Wirtschaft Berlin (HTW), arbeitete dafür mit einer Gruppe von Forschern verschiedener Universitäten zusammen, um die Fähigkeit von 14 Tools – darunter Turnitin, GPT Zero und Compilatio – zu bewerten, von OpenAIs ChatGPT geschriebene Texte zu erkennen.

Die meisten dieser Programme suchen nach Merkmalen von KI-generiertem Text, einschließlich bestimmter Formen von Wiederholungen – und berechnen dann die Wahrscheinlichkeit, dass der Text von einer KI generiert wurde. Das Forscherteam fand jedoch heraus, dass jedes einzelne getestete Tool Schwierigkeiten hatte, von ChatGPT generierten Text zu erkennen, der von Menschen zuvor leicht umgestellt und/oder von einem Paraphrasierungstool verschleiert worden war. "Diese Tools funktionieren nicht", lautet Weber-Wulffs Urteil. "Sie tun einfach nicht das, was sie vorgeben zu tun. Das sind keine Detektoren für KI." Das Ergebnis der Untersuchung deutet daraufhin, Schülerinnen und Schüler sowie Studierende von einer KI generierte Arbeiten nur leicht anpassen müssen, um an solchen Detektoren vorbeizukommen.

Wie ging die Forscherin und ihre Kollegen in der Studie vor? Um eine Auswahl an von Menschen generierten Texten zur Untersuchung zu haben, verfassten sie kurze Aufsätze auf Bachelor-Niveau zu einer Reihe von Themen wie Bauingenieurwesen, Informatik, Wirtschaft, Geschichte, Linguistik und Literatur. Sie schrieben die Texte neu, um sicherzugehen, dass sie nicht in den ChatGPT-Trainingsdaten vorkamen.

Dann schrieb jeder Forscher einen zusätzlichen Text auf Bosnisch, Tschechisch, Deutsch, Lettisch, Slowakisch, Spanisch oder Schwedisch. Diese Texte wurden entweder durch das KI-Übersetzungstool DeepL oder durch den Konkurrenten Google Translate ins Englische übersetzt.

Das Team verwendete anschließend ChatGPT, um jeweils zwei weitere Texte zu generieren. Diese veränderten sie leicht, damit der KI-Ursprung verschleiert wurde. Ein Bereich wurde von den Forschern manuell bearbeitet, indem sie Sätze neu anordneten und Wörter austauschten, während ein anderer mit einem KI-Paraphrasierungstool namens Quillbot umgeschrieben wurde. Am Ende hatte die Gruppe 54 Dokumente, an denen sie die Erkennungswerkzeuge testen konnten.

Die Wissenschaftler fanden schnell heraus, dass die Tools zwar gut darin waren, von Menschen geschriebenen Text zu erkennen (mit einer durchschnittlichen Genauigkeit von 96 Prozent), dass sie aber schlechter abschnitten, wenn es darum ging, KI-generierten Text zu erkennen – und zwar insbesondere, wenn er bearbeitet wurde. Obwohl die Tools ChatGPT-Text mit einer Genauigkeit von 74 Prozent identifizierten, sank diese Rate auf 42 Prozent, wenn der von ChatGPT generierte Text auch nur leicht verändert worden war.

Die Studie zeige auch, wie veraltet die derzeitigen Methoden der Universitäten zur Bewertung studentischer Arbeiten sind, kommentiert Vitomir Kovanović, leitender Dozent, der an der University of South Australia Modelle für maschinelles Lernen und künstliche Intelligenz entwickelt, aber nicht an dem Forschungsprojekt beteiligt war. Daphne Ippolito, leitende Wissenschaftlerin bei Google, die sich auf die Generierung natürlicher Sprache spezialisiert hat und ebenfalls nicht an dem Projekt beteiligt war, äußert zudem eine weitere Sorge.

"Wenn automatische Erkennungssysteme im Bildungsbereich eingesetzt werden sollen, ist es von entscheidender Bedeutung, ihre Falsch-Positiv-Rate zu verstehen, da eine falsche Beschuldigung einer SchĂĽlerin oder eines SchĂĽlers schwerwiegende Folgen fĂĽr seine akademische Karriere haben kann", sagt sie. "Die Falsch-Negativ-Rate ist ebenfalls wichtig, denn wenn zu viele KI-generierte Texte als von Menschen geschrieben durchgehen, ist das Erkennungssystem nicht nĂĽtzlich."

Die Firma Compilatio, die eines der von den Forschern getesteten Tools entwickelt, weist darauf hin, dass ihr System lediglich verdächtige Passagen anzeigt, die es als potenzielle Plagiate oder als potenziell von KI generierte Inhalte einstuft. "Es obliegt den Schulen und der Lehrerschaft, die die analysierten Dokumente benoten, das vom Autor des Dokuments tatsächlich erworbene Wissen zu validieren. Das kann geschehen, indem sie zum Beispiel zusätzliche Mittel der Überprüfung einsetzen – mündliche Prüfung, zusätzliche Fragen in einer kontrollierten Unterrichtsumgebung und mehr", so ein Sprecher von Compilatio.

"Auf diese Weise sind die Compilatio-Tools Teil eines echten Lehransatzes, der das Erlernen guter Recherche-, Schreib- und Zitierpraktiken fördert. Die Compilatio-Software ist eine Korrekturhilfe, kein Korrektor", erklärte die Firma. Turnitin und GPT Zero reagierten nicht sofort auf eine Bitte um Stellungnahme.

Nur so weit: "Unser Erkennungsmodell basiert auf den bemerkenswerten Unterschieden zwischen der eigenwilligen, unvorhersehbaren Natur menschlichen Schreibens und den sehr vorhersehbaren statistischen Signaturen von KI-generiertem Text", sagte Annie Chechitelli, Chief Product Officer des Kölner Entwicklers Turnitin.

"Unsere Funktion zur Erkennung von KI-Texten weist den Nutzer jedoch lediglich auf das Vorhandensein solcher Bereiche hin und hebt jene hervor, in denen eine weitere Überprüfung notwendig sein könnte. Sie bestimmt nicht, ob die Verwendung von KI-Schreibwerkzeugen angemessen oder unangemessen ist, oder ob deren Verwendung im Rahmen der Prüfungsordnung und der vom Lehrer erteilten Anweisungen einen Betrug oder ein Fehlverhalten darstellt."

Wir wissen schon seit einiger Zeit, dass Tools, die dazu gedacht sind, von KI geschriebene Texte zu erkennen, nicht immer so funktionieren, wie sie sollen. Anfang des Jahres stellte OpenAI ein Tool vor, das von ChatGPT produzierten Text erkennen sollte, und gab zu, dass es nur 26 Prozent der von KI geschriebenen Texte als "wahrscheinlich von KI geschrieben" kennzeichnete.

OpenAI wies MIT Technology Review auf einen Abschnitt auf seiner Website hin, in dem gewarnt wird, dass Tools zur Erkennung von KI-generierten Inhalten "bei weitem nicht narrensicher" sind.

Solche Fehlschläge haben die Unternehmen jedoch nicht davon abgehalten, Produkte auf den Markt zu bringen, die diese Aufgabe zu erfüllen versprechen, sagt Tom Goldstein, Assistenzprofessor an der University of Maryland, der nicht an der Untersuchung beteiligt war.

"Viele von ihnen sind nicht sehr genau, aber sie sind auch nicht alle ein komplettes Desaster", fĂĽgt er hinzu und weist darauf hin, dass es Turnitin gelungen sei, eine gewisse Erkennungsgenauigkeit mit einer recht niedrigen Falsch-Positiv-Rate zu erreichen.

Und obwohl Studien, die die Unzulänglichkeiten sogenannter KI-Texterkennungssysteme beleuchten, sehr wichtig sind, wäre es hilfreich gewesen, die Studie auf KI-Tools jenseits von ChatGPT auszuweiten, sagt Sasha Luccioni, Forscher beim KI-Start-up Hugging Face.

Für Kovanović ist die ganze Idee, von KI geschriebenen Text erkennen zu wollen, nicht richtig. "Versuchen Sie nicht, KI zu erkennen – machen Sie es einfach so, dass der Einsatz von KI nicht das Problem ist", sagt er.

(jle)