Wie Wasserzeichen Texte von KI-Chatbots sichtbar machen könnten

KI-Werkzeuge wie ChatGPT werden immer besser. Das macht es für Lehrende schwer, Plagiate zu entdecken. Wasserzeichen sollen nun helfen.

62

(Bild: CHUAN CHUAN/Shutterstock.com)

02.02.2023, 09:00 Uhr

Lesezeit: 6 Min.

MIT Technology Review

Von

Melissa Heikkilä

Versteckte Muster, die der Mensch nicht wahrnehmen kann und absichtlich in KI-generierten Texten verteilt werden, könnten künftig dabei helfen, selbst geschriebene Inhalte von denen aus dem Computer zu unterscheiden. So soll es wieder möglich werden, algorithmisch produzierte Texte von menschlichen zu unterscheiden, hoffen Informatiker.

Diese "Wasserzeichen" sind für das menschliche Auge unsichtbar, lassen aber andere Computer erkennen, dass der Text wahrscheinlich von einem KI-System stammt. Würden sie künftig in große Sprachmodelle eingebettet, könnten sie dazu beitragen, gewichtige Probleme zu vermeiden, die diese Modelle bereits jetzt verursachen.

ChatGPT rollt den Markt auf

Seitdem der Chatbot ChatGPT von OpenAI im November auf den Markt gekommen ist, haben Schüler und Studenten längst damit begonnen, das System für Aufsätze und Hausarbeiten zu missbrauchen, denn die Textqualität ist erstaunlich hoch. Dann wurde bekannt, dass die IT-News-Website CNET den Textgenerator zum Verfassen von Artikeln benutzt hat, die manchmal falsch waren und womöglich auch Abgeschriebenes enthielten.

Videos by heise

Die Integration von Wasserzeichen in solche KI-Systeme vor deren Ausgabe könnte helfen, solche Probleme zu lösen. Jeder könnte überprüfen, woher ein Text stammt. In universitären Experimenten wurden diese Technik bereits verwendet, um KI-generierte Inhalte mit nahezu absoluter Sicherheit zu identifizieren. Forscher der University of Maryland konnten beispielsweise mit einem von ihnen entwickelten Erkennungsalgorithmus Text erkennen, der von einer modifizierten Version von Metas Open-Source-Sprachmodell OPT-6.7B erstellt wurde. Mitte Februar will die Gruppe dazu passenden Code freigeben, aktuell läuft das Peer-Review.

KI-Sprachmodelle arbeiten, indem sie ein Wort nach dem anderen vorhersagen und so Text erzeugen. Nach jedem Wort teilt der Wasserzeichen-Algorithmus der Forscher aus Maryland das Vokabular des Sprachmodells nach dem Zufallsprinzip in Wörter auf einer "grünen Liste" und einer "roten Liste" ein und fordert das Modell dann auf, Wörter auf der grünen Liste auszuwählen.

Rote und grüne Liste

Je mehr Wörter in einer Passage auf dieser grünen Liste (die dem Überprüfungsalgorithmus bekannt ist) stehen, desto wahrscheinlicher ist es, dass der Text von einer Maschine erstellt wurde. Ein von einer Person geschriebener Text enthält hingegen in der Regel eine eher zufällige Mischung von Wörtern. Zum Beispiel könnte der Wasserzeichen-Algorithmus für den Wortbereich "schön" das Wort "Blume" als grün und "Orchidee" als rot einstufen. Das KI-Modell mit dem Wasserzeichen-Algorithmus würde dann eher das Wort "Blume" als "Orchidee" verwenden, erklärt Tom Goldstein, Assistenzprofessor an der Universität von Maryland, der an der Forschung beteiligt war.

Solche Systeme könnten bitter nötig sein. Denn ChatGPT gehört zu einer neuen Art von großen Sprachmodellen, die so flüssige Texte erzeugen können, dass man sie mit menschlichem Output verwechseln kann. Hinzu kommt: Diese KI-Modelle spucken äußerst selbstbewusst Fakten aus, doch müssen diese nicht stimmen, sie können inhaltlich verzerrt sein. Für ein untrainiertes Auge ist es fast unmöglich, einen von ChatGPT und anderen fortschrittlichen Modellen geschriebenen Text von einem menschlichen Text zu unterscheiden.

Und die atemberaubende Geschwindigkeit der KI-Entwicklung bedeutet, dass neue, leistungsfähigere Modelle vorhandene Werkzeuge zur Erkennung von synthetischem Text schnell unwirksam machen. Es wird ein ständiger Wettlauf zwischen den KI-Entwicklern und Sicherheitsexperten, die versuchen, mit der neuesten Generation von KI-Modellen mithalten zu können.

Lesen Sie auch

30 Kilometer laufen, sagt ChatGPT – Vorsicht, wenn die KI Trainingspläne macht!

Chatgpt,Chat,With,Ai,Or,Artificial,Intelligence.,Young,Businessman,Chatting

Hype um KI ChatGPT: "System kaum kritisch reflektiert"

Im Wilden Westen der KI

"Im Moment ist es der Wilde Westen", sagt John Kirchenbauer, ein Forscher an der Universität von Maryland, der an dem Wasserzeichen beteiligt ist. Er hofft, dass solche Tools den Bemühungen, KI zu erkennen, einen Vorsprung geben. Das von seinem Team entwickelte System könnte so angepasst werden, dass es mit jedem KI-Sprachmodell funktioniert, das als Transformer arbeitet, also das nächste Wort vorhersagt.

Die bisherigen Ergebnisse seien vielversprechend und kämen zur richtigen Zeit, meint Irene Solaiman, Policy Director beim KI-Start-up Hugging Face, die in ihrer früheren Rolle als KI-Forscherin bei OpenAI an der Untersuchung solcher Systeme gearbeitet hat. "Da die Modelle in großem Umfang eingesetzt werden, müssen immer mehr Menschen außerhalb der KI-Gemeinschaft, die selbst keine Informatikerausbildung haben, Zugang zu solchen Erekennungssystemen haben", sagt sie.

Noch hat die Methodik aber Grenzen. Das Wasserzeichen-System funktioniert nur, wenn es von den Entwicklern von Anfang an in das große Sprachmodell eingebettet wird. Obwohl OpenAI bereits an Methoden zur Erkennung von KI-generiertem Text arbeitet, die auch veröffentlicht werden, scheint es doch eine Geheimwissenschaft. Das Unternehmen neigt dazu, Außenstehenden nicht viele Informationen darüber zu geben, wie ChatGPT funktioniert oder trainiert wurde. An dem System herumbasteln dürfen Externe erst recht nicht. Auf eine Anfrage zu diesem Artikel reagierte OpenAI nicht zeitnah.

Wie viel Sicherheit bietet ein Wasserzeichen?

Es ist auch unklar, wie sich die neue Wasserzeichen-Technik auf andere Modelle als das von Meta – also etwa ChatGPT – anwenden lässt, sagt Solaiman. Das KI-Modell, an dem das Verfahren getestet wurde, ist kleiner als GPT-3, auf dem ChatGPT basiert.

Es sind zudem noch weitere Experimente erforderlich, um festzustellen, ob es möglich ist, die Wasserzeichen-Technik auszuhebeln. Bislang nehmen die Forscher an, dass die Möglichkeit für Angreifer begrenzt ist. "Man müsste etwa die Hälfte der Wörter in einer Textpassage ändern, um das Wasserzeichen zu entfernen", sagt Forscher Goldstein.

Die Expertin von Hugging Face ist da nicht ganz seiner Meinung. "Es ist gefährlich, Highschool-Schüler zu unterschätzen, deshalb werde ich das nicht tun", sagt Solaiman. "Aber im Allgemeinen wird die Durchschnittsperson wahrscheinlich nicht in der Lage sein, diese Art von Wasserzeichen zu manipulieren".