Wie man KI-generierte Texte erkennen kann

Immer häufiger tauchen im Netz von Textgeneratoren erstellte Inhalte auf. Neue Werkzeuge müssen her, um sie zu erkennen.

In Pocket speichern vorlesen Druckansicht 200 Kommentare lesen

(Bild: Stephanie Arnett/MIT TR)

Lesezeit: 10 Min.
Von
  • Melissa Heikkilä
Inhaltsverzeichnis

"Dieser Satz wurde von einer KI geschrieben." Oder vielleicht doch nicht? Der neue Chatbot von OpenAI, ChatGPT, stellt uns vor ein ganz neues Problem: Wie sollen wir wissen, ob das, was wir online lesen, von einem Menschen oder einer Maschine verfasst wurde?

Seit Veröffentlichung Ende November wurde ChatGPT von über einer Million Menschen genutzt. Die KI-Community gibt sich begeistert – und es scheint ausgemacht, dass das Internet zunehmend mit KI-generierten Texten überflutet werden wird. Viele Menschen nutzen ChatGPT inzwischen, um sich Witze generieren zu lassen, Kindergeschichten zu erstellen oder bessere E-Mails.

ChatGPT ist ein einfach zu bedienender Ableger des großen Sprachmodells GPT-3 der von Elon Musk, Microsoft und anderen Konzernen finanzierten Firma OpenAI. Das System kann auf Fragen, die ihm gestellt werden, bemerkenswert menschlich klingende Antworten erzeugen. Der Zauber – und das Risiko – dieser großen Sprachmodelle liegt darin, dass sie eine Illusion der Korrektheit liefert. Die Sätze, die die Algorithmen produzieren, sehen zunächst echt aus – sie verwenden die richtigen Wortarten in der richtigen Reihenfolge. Doch die KI weiß eben nicht, was das alles bedeutet, was da generiert wird. Denn die Modelle arbeiten mit einer Vorhersage des wahrscheinlichsten nächsten Wortes in einem Satz. Sie haben also keine Ahnung, ob etwas richtig oder falsch ist. Was noch hinzukommt: Sie präsentieren ihre Informationen selbstbewusst als wahr, selbst wenn sie das in der Realität gar nicht sind.

Das sorgt für eine große Gefahr: In einer bereits politisch enorm polarisierten Online-Welt könnten solche KI-Tools das, was wir inhaltlich konsumieren, noch weiter verzerren. Sobald sie in der realen Welt in realen Produkten zum Einsatz kommen, könnten die Folgen verheerend sein. Wir brauchen daher dringend Möglichkeiten, um zwischen von Menschen geschriebenen Texten und KI-Texten zu unterscheiden, um dem potenziellen Missbrauch der Technologie entgegenzuwirken. Das sagt etwa Irene Solaiman, Policy Director beim KI-Start-up Hugging Face, die früher selbst KI-Forscherin bei OpenAI war und sich bereits mit der Erkennung von KI-Inhalten bei der Veröffentlichung des GPT-3-Vorgängers GPT-2 beschäftigt hatte.

Neue Tools werden auch für die Durchsetzung von Verboten benötigt, die künftig KI-generierte Texte oder KI-generierten Programmcode ausschließen sollen. Das Thema ist längst aktuell. So verbietet die Programmier-Website Stack Overflow, auf der Coder um Hilfe bitten können, mittlerweile Output von ChatGPT. Denn das System kann auch Antworten auf Softwareprobleme ausspucken, ist dabei aber keineswegs narrensicher. Und falscher Code kann dann zu fehlerhafter und kaputter Software führen, deren Bereinigung später teuer und potenziell chaotisch wird.

Ein Sprecher von Stack Overflow meint, dass die Moderatoren des Unternehmens inzwischen "Tausende von eingereichten Antworten von Community-Mitgliedern" untersucht haben. Dabei kamen eine Reihe von Werkzeugen, darunter Erkennungsmodelle und spezielle Heuristiken, zum Einsatz. Details will das Unternehmen aber nicht nennen. Und in Wirklichkeit ist es unglaublich schwierig, ein solches Verbot durchzusetzen – beziehungsweise nahezu unmöglich.

Es gibt bereits einige Methoden, mit denen Forscher versucht haben, KI-generierte Text zu erkennen. Eine gängige Technik besteht darin, mit Hilfe von Software verschiedene Merkmale des Textes zu analysieren – zum Beispiel, wie flüssig er sich liest, wie häufig bestimmte Wörter vorkommen oder ob es Muster bei Zeichensetzung oder Satzlängen gibt. "Wenn man genügend Text hat, ist etwa ein einfaches Indiz, dass das Wort 'the' zu oft vorkommt", sagt Daphne Ippolito, leitende Wissenschaftlerin bei Google Brain, der Forschungseinheit des Suchmaschinenkonzerns für den Bereich Deep Learning.

Da große Sprachmodelle das nächste Wort in einem Satz vorhersagen, verwenden sie eher gebräuchliche Wörter wie "the", "it" oder "is" anstelle von seltener vorkommenden Wörtern. Dies ist genau die Art von Text, die automatische Erkennungssysteme gut erkennen könnten, wie Ippolito und ein Forscherteam von Google in einer bereits 2019 veröffentlichten Studie herausgefunden haben. Ippolitos Studie zeigte aber auch eine andere Neuigkeit: Die menschlichen Teilnehmer neigten dazu, diese Art von computergeneriertem "sauberen" Text für besser aussehend und korrekter zu halten. Resultat: Sie dachten, er komme vom Menschen.

Mehr über Künstliche Intelligenz

Doch in Wirklichkeit sind von Menschen geschriebene Texte eher voller Tippfehler bei gleichzeitig hoher Variabilität. Sie enthalten oft verschiedene Stile und Slangbegriffe. "Sprachmodelle generieren hingegen sehr, sehr selten Tippfehler. Sie sind viel besser darin, perfekte Texte zu generieren", sagt Ippolito. Und: "Ein Tippfehler im Text ist eigentlich ein sehr guter Indikator dafür, dass er von Menschen geschrieben wurde."

Große Sprachmodelle können auch selbst zur Erkennung von KI-generierten Texten verwendet werden. Eine der erfolgreichsten Methoden besteht darin, das Modell auf einige von Menschen geschriebene und einige von Maschinen geschriebene Texte zu trainieren, damit es lernt, zwischen den beiden zu unterscheiden, wie Muhammad Abdul-Mageed erläutert, der den kanadischen Forschungslehrstuhl für Maschinelles Lernen an der University of British Columbia innehat und die Erkennung von KI-Texten untersucht hat.

Scott Aaronson, Informatiker an der University of Texas, der ein Jahr lang selbst als Forscher bei OpenAI tätig war, hat außerdem eine Form von Wasserzeichen für längere Texte entwickelt, die von Modellen wie GPT-3 generiert wurden. "Das ist ein ansonsten unauffälliges geheimes Signal in der Wortwahl, mit dem man später beweisen kann, dass es von GPT stammt", erläutert er in seinem Blog. Ein Sprecher von OpenAI bestätigte, dass das Unternehmen selbst an Wasserzeichen für computergenerierte Texte arbeitet. Außerdem besagten seine Geschäftsbedingungen, dass Benutzer von der KI generierten Text deutlich kennzeichnen sollten: "Und zwar so, dass das niemand übersehen oder missverstehen kann."

Die bisherigen technischen Lösungen sind jedoch keineswegs perfekt. Die meisten haben keine Chance gegen die neueste Generation von KI-Sprachmodellen, da sie noch auf GPT-2 oder anderen früheren Modellen aufbauen. Und viele der Erkennungstools funktionieren am besten, wenn viel Text zur Verfügung steht; in einigen konkreten Anwendungsfällen wie Chatbots oder E-Mail-Assistenten, die auf kürzere Konversationen abgestellt sind und weniger Daten zur Analyse liefern, sind sie wenig effizient. Und die Verwendung großer Sprachmodelle für die KI-Erkennung erfordert gleichzeitig leistungsstarke Computer – plus den Zugang zum KI-Modell selbst. Und den gewähren die Tech-Unternehmen bislang nicht, so Professor Abdul-Mageed.

Je größer und leistungsfähiger die Modelle werden, desto schwieriger ist es, selbst wieder KI-Modelle zu erstellen, die erkennen können, welcher Text von einem Menschen geschrieben wurde und welcher nicht, gibt Hugging-Face-Experte Solaiman zu bedenken. "Besorgniserregend ist, dass [ChatGPT] jetzt wirklich beeindruckende Ergebnisse liefert. Die Erkennungsmodelle können da einfach nicht mithalten. Die müssten die ganze Zeit aufholen", sagt sie.

Und es gibt kein Patentrezept für die Erkennung von KI-geschriebenem Text, so Solaiman. "Ein Erkennungsmodell ist nicht die Lösung für die Erkennung von synthetischem Text, genauso wenig wie Filter die Lösung für Bias-Probleme sind." (Damit gemeint ist die Tendenz von KI-Systemen, auch rassistische und anderweitig problematische Inhalte zu reproduzieren.) Um eine Chance zu haben, das Problem zu lösen, brauchen wir bessere technische Lösungen und mehr Transparenz im Bezug darauf, wann Menschen mit einer KI interagieren. Das bedeutet: Wir müssen selbst lernen, Anzeichen von KI-geschriebenen Sätzen zu erkennen.

"Es wäre wirklich schön, wenn es ein Plug-in für Chrome oder einen anderen Webbrowser gäbe, mit dem man checken kann, ob ein Text auf einer Webseite maschinell erstellt wurde", sagt Ippolito. Etwas Hilfe gibt es bereits. Forscher an der Harvard University und bei IBM haben ein Tool namens Giant Language Model Test Room (GLTR) entwickelt, das Menschen dabei unterstützt, problematische Passagen zu finden. Es hebt dazu solche hervor, die von einem Computerprogramm erzeugt worden sein könnten.

Doch KI-Systeme führen uns längst wieder an der Nase herum. Forscher der Cornell University fanden heraus, dass Menschen gefälschte Nachrichtenartikel, die von GPT-2 – wohlgemerkt dem Vorgänger von GPT-3 – generiert wurden, in etwa 66 Prozent der Fälle für glaubwürdig hielten. In einer anderen Studie wurde festgestellt, dass ungeübte Personen mit GPT-3 generierte Texte nur zu einem Anteil erkennen konnten, der auf Zufall hinauslief.

Die gute Nachricht ist, dass Menschen trainieren können, KI-generierten Text besser zu erkennen, sagt Ippolito. Sie selbst hat ein Spiel entwickelt, um zu testen, wie viele Sätze ein Computer generieren kann, bevor der Spieler merkt, dass es sich nicht um einen Menschen handelt. Sie hat festgestellt, dass die Spieler mit der Zeit immer besser werden.

"Wenn man sich viele computergenerierte Texte ansieht und dabei versucht, herauszufinden, was in ihnen keinen Sinn ergibt, kann man bei diesem Job auch besser werden", sagt sie. Eine Möglichkeit besteht darin, unplausible Aussagen zu entdecken, wie die Behauptung einer KI, dass es 60 Minuten dauere, eine Tasse Kaffee zu kochen.

GPT-3, die Grundlage von ChatGPT, ist erst seit 2020 im Einsatz. Laut OpenAI handelt es sich bei ChatGPT um einen Demonstrator, doch ist es nur eine Frage der Zeit, bis ähnlich leistungsfähige Modelle entwickelt und in Produkten wie frei erhältlichen Chatbots für den Einsatz im Kundenservice oder im Gesundheitswesen integriert werden.

Und damit kommen wir zum Kern des Problems: Die enorme Geschwindigkeit der Entwicklung in diesem Sektor bedeutet, dass jegliche Methoden, KI-generierte Texte zu erkennen, sehr schnell wieder sehr alt aussehen. Es ist also ein Wettrennen – und im Moment sieht es danach aus, dass wir verlieren.

(jle)