Trügerisch: Die automatische Erkennung von ChatGPT-Texten hat viele Schwächen

Es gibt zwar immer mehr Tools, die versprechen, von Maschinen geschriebene Texte erkennen zu können. Doch wer wirklich schummeln will, kann sie austricksen.

16

(Bild: CHUAN CHUAN/Shutterstock.com)

07.02.2023, 06:00 Uhr

Lesezeit: 7 Min.

MIT Technology Review

Von

Dr. Wolfgang Stieler

Der kometenhafte Aufstieg von ChatGPT wird mittlerweile von einem kaum minder rasanten Wachstum an Tools begleitet, die Texte des Chatbots von menschlichen Texten unterscheiden sollen. Denn mittlerweile diskutieren nicht nur Lehrende an Schulen und Hochschulen darüber, wie sie mit Hausaufgaben auf Knopfdruck umgehen sollen. Die mögliche massenhafte Verbreitung von maschinell erzeugtem Unfug besorgt anscheinend mittlerweile sogar die Hersteller der Sprachmodelle.

Erstaunlich schnell veröffentlichte beispielsweise OpenAI ein eigenes Tool zur Erkennung von ChatGPT-Texten, den OpenAI AI Text Classifier, nachdem zuvor Tools wie GPTZero oder Originality.ai für viel Aufsehen gesorgt hatten.

Wirklich neu ist die Idee, maschinell erzeugte Texte mithilfe von Maschinen zu erkennen, allerdings nicht wirklich. Einige wissenschaftlichen Arbeiten dazu erschienen bereits Mitte der 2010er Jahre. 2019 veröffentliche auch OpenAI seinen ersten KI-Detektor, nachdem das Unternehmen selbst mit seiner zögerlichen Freigabe von GPT-2 für einen ordentlichen Hype um sein Sprachmodell gesorgt hatte. Wenig später folgte der Giant Language Model Test Room: beide Programme prüfen explizit, ob ein Text von GPT-2 produziert wurde.

Danach flaute das Interesse allerdings wieder ab. Vermutlich aus zwei Gründen: Erstens hatten die ersten großen Sprachmodelle – auf den ersten Blick erkennbare – deutliche Schwächen. Und zweitens hatte – bis auf ein paar KI-Forscher – eigentlich niemand ein echtes Interesse an der Fragestellung. Das ändert sich nun.

Videos by heise

Wie funktionieren Tools zur Erkennung von ChatGPT und Co.?

Eine relativ naheliegende Idee ist es, ein neuronales Netz als Klassifizierer zu verwenden: Man muss das Netz nur mit hinreichend vielen Beispielen trainieren, damit es lernt, wie ein typischer, maschineller Text aussieht, und wie ein menschlicher: Die GPT-2 Output Detector Demo von Open AI geht nach diesem Prinzip vor: Der Detektor arbeitet mit einer Implementation des RoBERTa-Modells, das mit Beispielen von GPT-2 trainiert worden ist.

Der Giant Language Model Test Room verwendet ein anderes Prinzip, das in Variationen immer wieder aufgegriffen wird: Die Software berechnet Wort für Wort, mit welcher Wahrscheinlichkeit das jeweils nächste Wort von dem zugehörigen Sprachmodell ergänzt werden würde. Wörter mit einer hohen Wahrscheinlichkeit werden dann im Interface grün eingefärbt, unwahrscheinliche Wörter rot und sehr seltene Wörter violett. So kann man auf den ersten Blick sehen, ob ein Text ungewöhnliche Wörter enthält, die dem Modell sozusagen "in der Regel nicht einfallen".

Das relativ neue Tool DetectGPT verwendet eine clevere Variation dieser Methode auf der Ebene von ganzen Sätzen: Das Tool berechnet die Wahrscheinlichkeit, mit der ein Sprachmodell – in diesem Fall GTP-3 – einen Satz erzeugen würde. Dann formuliert es den Satz mehrere Male um – so dass sich der Sinn nicht ändert – und berechnet die neuen Wahrscheinlichkeiten. Ist die Wahrscheinlichkeit des ursprünglichen Satzes größer als die der geänderten Sätze, handelt es sich um das Produkt eines Sprachmodells. Denn genau das ist es, was große Sprachmodelle tun: Sie erzeugen stets mehrere Alternativen, und wählen die mit der höchsten Wahrscheinlichkeit aus, die am ehesten ein "guter Output" ist.

Das viel gehypte GPTZero basiert ebenfalls auf der Wahrscheinlichkeit für ein Stück Text, allerdings berechnet es daraus die so genannte "Perplexity". Dieses Maß wird in der NLP verwendet, um die Güte eines Sprachmodells zu testen. Vereinfacht ausgedrückt ist das eine Zahl, die ausdrückt, wie überraschend das nächste Wort in einem Satz ist. Ein guter Maschinentext hat wenig Perplexität, ein menschlicher mehr.

Die Sätze "Das Wetter heute ist sonnig und warm. Die Temperatur liegt bei 25 Grad Celsius.“ haben eine geringe Perplexität. "Die majestätische Pracht des Himmels, beschienen von den Strahlen der Sonne, erstrahlt heute in einer feurigen Glorie von 25 Grad Celsius" erzielt dagegen einen sehr viel höheren Perplexity-Wert, denn die einfachen und klaren Wörter des ursprünglichen Textes wurden durch abstraktere und poetischere Wörter ersetzt, die in den Trainingsdaten offenbar weniger oft auftauchten, und deshalb mit einer geringeren Wahrscheinlichkeit gewählt werden.

Last but not least schlagen John Kirchenbauer und Kollegen eine Methode vor, mit der eine Art unsichtbares Wasserzeichen in einen Text gebrannt wird. Das funktioniert so: Die Wasserzeichen-Software erzeugt eine Liste von Wörtern, die das Sprachmodell nur mit einer verringerten Wahrscheinlichkeit wählen darf – die also in maschinellen Texten weniger häufig vorkommen werden. Die Parameter für die Erzeugung dieser Liste – sie wird natürlich für jeden Text neu erzeugt – werden mit dem Text veröffentlicht. Ein Prüfprogramm muss dann einfach nur berechnen, ob die Wahrscheinlichkeiten niedrig genug sind.