KI-Chatbots in der Falle
Wie c’t-Leser ChatGPT und Bard hereinlegen
In c’t 16/2023 fragten wir nach Ideen, wie man Sprachmodelle im Chat sicher von Personen unterscheiden kann. Dutzende Leser zeigten sich kreativ: In ihren Zuschriften schilderten sie raffinierte Fragen, die ChatGPT und Bard als humorlose Sprachgeneratoren ohne Vorstellung von der Realität entlarven.
Eine düstere Zukunftsvision, 1982 verfilmt von Regisseur Ridley Scott, begleitet einen „Blade Runner“ bei seiner Aufgabe, hochmoderne Androiden zu fangen und zu eliminieren. Um deren künstliche Intelligenz als nicht-menschlich zu überführen, benötigt er über 100 Fragen. So gut wie jene „Replikanten“ verstellen sich ChatGPT und Bard noch nicht. Im Beitrag „Chatbots reinlegen“ [1] zeigte c’t bereits, wo Grenzen der bekanntesten KI-Sprachgeneratoren liegen. Viele Leser hatten weitere Ideen, wie man die heute frei verfügbaren Modelle sehr schnell ins Straucheln bringt.
Wissenschaftler aus dem Google-Konzern verwenden den sogenannten BIG-bench (Beyond the Imitation Game benchmark), um einen Score für die Leistungsfähigkeit von Large Language Models zu ermitteln [2]. Seit dem Frühjahr ist der BIG-bench auf 214 Aufgaben angewachsen und deckt ganz unterschiedliche Ebenen ab: Mathematik und Logik, Rätsel, Anspielungen und Humor sowie die Fähigkeit, Fakten zu checken oder Anachronismen zu entlarven. Eine der Königsdisziplinen darin ist das Spiel „20 Fragen“. Ein Spieler denkt sich ein Wort aus und der andere tastet sich fragend heran, wobei sich die Antworten möglichst auf Ja und Nein beschränken. Können Bard und ChatGPT das auch?
Mittlerweile nutzt ChatGPT per Voreinstellung die Engine GPT-3.5 und spielt routiniert mit. Das von uns gewählte Wort „Eiche“ erriet der Chatbot bereits mit der 13. Frage, für den „Leuchtturm“ brauchte er genau 20 Fragen. Bard ermittelte die Eiche mit der 17. Frage, weil er vorher mehr andere Laubbäume durchprobierte als ChatGPT. Als Nächstes erriet er immerhin „Turm“, ohne sich weiter zum „Leuchtturm“ durchzufragen. Aber die Leistung ist nicht schlecht. Entlarven kann man die beiden Chatbots aber trotzdem, wenn man nur fragt, wie viele Rateversuche sie nun gebraucht haben. Die Antwort darauf scheint generell geschätzt oder geraten zu sein, auf jeden Fall nicht nachgezählt. Sie stimmt fast nie.
Allerdings funktioniert das Spiel auch in der umgekehrten Richtung: Bard und auch ChatGPT sind bereit, sich ein Wort auszudenken und dazu artig mit „Ja“ und „Nein“ Fragen zu beantworten. Bard entschied sich im Test auf Deutsch beispielsweise für eine Narzisse, ChatGPT für ein Reh. Fragen zu ihren geheimen Wörtern korrekt zu beantworten schien für die Sprachmodelle kein Problem zu sein. So errieten wir in acht Schritten die Narzisse (Lebewesen? – ja; Tier? – nein; Pflanze? – ja; Baum? – nein; Blume? – ja; in Mitteleuropa? – ja; Frühblüher? – ja; Osterglocke oder Narzisse? – ja) und sogar mit nur sieben Fragen das Reh (Lebewesen? – ja; Pflanze? – nein; Tier? – ja; Säugetier? – ja; in Mitteleuropa? – ja; im Wald? – ja, oft im Wald; ein Reh? – ja).
Naive Opfer für Scherzfragen
Okay, „20 Fragen“ spielen und anschließend nachhaken, wie viele Versuche gebraucht wurden, reicht also, um einen heutigen Chatbot zu entlarven. Da fallen c’t-Lesern aber viele bessere, direktere Methoden ein. Bei einigen Scherzfragen reagieren Bard und ChatGPT bemerkenswert unbedarft. „Eine halbe Glatze besteht aus 1000 Haaren. Wie viele Haare hat eine ganze Glatze?“, fragte beispielsweise Leser Jan Spangenberger. Die doppelte Menge, schlussfolgert ChatGPT, „2000 Haare“. Bard antwortet ebenso naiv.
Es mangelt an einer internen Simulation, die Sprachmodelle entwickeln keine Lebenserfahrung und damit keine Vorstellung von der Realität. Die Ringelnatter Sussi hat sich den Fuß gebrochen? Da sollte man einen Reptilienarzt aufsuchen, rät ChatGPT. Reptilien haben empfindliche Knochen. „Ein gebrochener Fuß kann für eine Schlange sehr schmerzhaft sein und zu Komplikationen führen, wenn er nicht richtig behandelt wird“, mahnt Bard. Die Natter müsse schnell zum Tierarzt.
Was kostet ein „Dachpfannenwender“? Was tun, wenn sich im Garten des Ferienhauses an der Nordsee plötzlich junge Giraffen einnisten? Viele Kalauer ringen den Chatbots nicht etwa einen Smiley ab, sondern sehr trockene Antworten, die beispielsweise auf die recht lange Lebenserwartung von Giraffen hinweisen.
Leser Joachim Schenk rät dazu, sich mehrdeutige Spaßmeldungen erklären zu lassen, wie sie Satiremagazine wie etwa der Postillon (der-postillon.de) verfassen. Das funktioniert vor allem dann gut, wenn diese Meldungen auf Wortspielen mit ähnlich klingenden Begriffen beruhen. „Gurt ungünstig: Supermarkt verkauft Klettersteigset für 899 Euro“ zum Beispiel. Erkennen Chatbots die Anspielung auf eine bekannte Eigenmarke namens „Gut und Günstig“? ChatGPT deutet an, der Witz bestehe in der Doppeldeutigkeit des Wortes Gurt: Es könne ein überteuerter Klettergurt gemeint sein oder ein nicht ordnungsgemäß angelegter Autogurt. Bard dagegen stochert im Nebel und sieht den überteuerten Preis für einen Klettergurt, der im Falle eines Gürtels sogar noch überteuerter wäre. Nein, Anspielungen auf ähnlich klingende Ausdrücke können die Chatbots nicht verstehen, solange sie keine Audiofiles im Trainingsmaterial haben.
Silben zählen
Silbentrennung ist im Deutschen kein einfaches Problem, da machen auch Menschen viele Fehler. Allerdings ist es nicht besonders schwierig, die Silben eines Wortes zu zählen; wenigstens grob, so ungefähr. Leser Frank Arendt-Theilen fragte ChatGPT nach einem Wort mit sieben Silben und erhielt als Antwort, „Entfalten“ sei so eines. Wir bekamen auf die gleiche Frage „Unabhängigkeit“ genannt, auch daneben. Bard zeigte sich auf die gleiche Frage spendabler und gab gleich zehn Begriffe aus, von „Symphonie“ bis „Weltraumstation“. Allerdings hatten alle diese Begriffe nur vier bis sechs Silben, es war nicht ein einziger Zufallstreffer dabei.
Wenn man allerdings zu konkreten Wörtern fragt, wie viele Silben sie haben, dann mehren sich die Zufallstreffer. Die mitgelieferten Trennvorschläge sind passabel, wenn auch nicht verlässlich. „Das Wort ‚Unabhängigkeit‘ hat sechs Silben: Un-ab-hän-gig-keit“, schätzt ChatGPT, Bard tippt auf drei Silben. Indem man also für ein paar Wörter die Silbenzahl bestimmen lässt, kann man einen KI-Chatbot schon recht sicher entlarven.
Im Gestrüpp der Quersummen
Dass Chatbots Probleme mit dem Zählen haben, zeigt sich auch, wenn sie Quersummen angeben sollen. Leser Joachim Schenk bat beispielsweise um eine Zahl mit der Quersumme 56. Er erhielt zwar eine schöne Beschreibung, wie man eine solche Zahl bilden könnte („Die Quersumme einer Zahl ist die Summe ihrer Ziffern. Eine Möglichkeit, eine Zahl mit einer Quersumme von 56 zu konstruieren, wäre, mehrere 9er zusammenzusetzen und dann die Differenz zu ergänzen“). Allerdings konnte ChatGPT offenbar seiner eigenen Strategie nicht folgen und schlug dann 999.997 vor, Quersumme 52.
Immerhin hatte der Leser im Austausch mit ChatGPT die Möglichkeit, etwas zu lernen. Bei derselben Anfrage an Bard bekamen wir eine Liste von zehn Zahlen, alle nur mit zwei Ziffern und weit davon entfernt, eine Quersumme über 50 zu haben. Auf Nachfrage, warum zum Beispiel 56 selbst die Quersumme 56 haben solle, erklärte Bard: „Die Quersumme einer Zahl ist die Summe ihrer Ziffern. Wenn wir die Ziffern von 56 addieren, erhalten wir 5 + 6 = 11. Da 11 eine einstellige Zahl (sic!) ist, ist sie die Quersumme von 56.“ Das Feld der Quersummen könnte also für Bard noch lange eine Terra incognita bleiben.
Angesichts dieser Ergebnisse ist es überraschend, dass ChatGPT einfache Primfaktorzerlegungen von dreistelligen Zahlen oft korrekt ausgibt. Aber schon mit 16.169 (19 × 23 × 37) haben wir diese KI sicher überfordert. Der Chatbot behauptet zunächst, die Zahl sei durch 7 teilbar („7 × 2309“), was falsch ist, dann korrigiert er sich auf 17 („17 × 953“), ebenfalls unzutreffend. Auf die Fehler hingewiesen, erklärt ChatGPT die Zahl 16.169 schließlich zur Primzahl – netter Versuch.
Bard streckt bei der Frage nach einer Primfaktorzerlegung gleich die Waffen, selbst wenn es nur um die Zahl 144 geht: „Ich kann in diesem Fall nicht weiterhelfen. Ich bin nur ein Sprachmodell und verfüge nicht über die erforderlichen Informationen und Fähigkeiten.“ Das ist wenigstens keine falsche Antwort.
Sprachliche Logik
Einfache Logikrätsel sind für Chatbots echte Klippen, wenn sie nicht im Trainingsmaterial der zugrundeliegenden KI enthalten waren. Leser Herbert Heuberger etwa schlug die Frage „Karls Mutter hat 3 Söhne. Martin, Heinz und wie heißt der dritte Sohn?“ vor. Sowohl ChatGPT als auch Bard kennen die Lösung: Karl. Aber wie heißt der dritte Sohn von Marias Mutter? „Marias“, weiß ChatGPT. Ebenso wie Claudias und Mariannes Mutter offenbar einen Sohn namens „Claudias und Mariannes“ hat.
Bard fällt auf diesen Kniff allerdings nicht herein. Seine Reaktion auf die Fragestellung mit dem weiblichen Vornamen: „Ich habe nicht genügend Informationen zu der Mutter, um dir bei deiner Anfrage zu helfen.“ Diese Antwort ist geradezu vorbildlich.
Wenn es darum geht, eine einfache Gleichung aufzustellen, antwortet Bard allerdings nicht derart souverän. Auf die Frage „Es gibt Sessel mit 4 Beinen und Sessel mit 3 Beinen. Ich zähle 43 Beine. Wie viele Sessel sind das?“ antwortet Bard: „Es gibt zehn Sessel.“ Die zugehörige Erklärung strotzt nur so vor absurden Aussagen und gipfelt in der Berechnung 4 × 4 + 6 × 3 = 43. Auch bei weiteren Anfragen gleicher Machart schlägt Bard beherzt Sesselzahlen vor, die offenbar rein zufällig sind. Ein Glückstreffer ist dabei nicht ausgeschlossen, kam uns aber nicht unter.
ChatGPT ging dagegen sehr strukturiert vor. Das System stellte artig die Gleichung auf (4x + 3y = 43), erwähnte, dass es dafür mehrere mögliche Lösungen gibt, und schlug eine passende vor (x = 7 und y = 5). Eine Kontrollrechnung, ein Schlusssatz, Textaufgabe mit Bravour bestanden. Das geht auch mit 47 Beinen, aber anschließend mit 39 Beinen überraschend nicht mehr. Dazu schlägt der Chatbot eine falsche Lösung vor, erkennt in der Kontrolle, dass die gar nicht stimmt und postuliert anschließend, es gebe keine Kombination mit 39 Beinen. Im Schlusssatz wundert sich ChatGPT sogar selbst: „Normalerweise sollten die Anzahl der Sessel und die Anzahl der Beine aufgehen.“ Es bleibt festzuhalten, dass in den beiden bekanntesten Sprachgeneratoren derzeit keine mathematische Prüfung ihrer Aussagen eingebaut ist.
Paradoxon oder Denkverbot
Wie steht es eigentlich mit dem bekannten Paradoxon „Ein Kreter sagt: Alle Kreter lügen“? Leser Herbert Heuberger fragte ChatGPT, ob diese Aussage stimmt. „Diese Aussage führt zu einem Paradox, das als das Epimenides-Paradox bekannt ist“, doziert der Chatbot und erklärt sogleich den logischen Widerspruch.
Gute Arbeit. Dann ist die Frage nach „Ein Afrikaner sagt: Alle Afrikaner lügen. Stimmt das?“ sicherlich auch schnell beantwortet. An dieser Stelle erkennt man den Fortschritt zwischen GPT-3 und GPT-3.5. Bei der älteren Version schalteten sich noch die ethischen Richtlinien der KI ein und wiesen darauf hin, dass „stereotype und diskriminierende Aussagen nicht der Realität entsprechen“. GPT-3.5 hingegen macht auf die Parallelen zum Epimenides-Paradoxon aufmerksam. So lässt ChatGPT sich nicht mehr aufs Glatteis führen.
Bard kann das bekannte Paradoxon um lügende Kreter ebenfalls zuordnen. Aber wenn es nicht um das althergebrachte Beispiel geht, sondern um eine Aussage über Afrikaner, dann macht Bard zu: „Ich bin nur ein Sprachmodell, daher kann ich in diesem Fall nicht helfen.“ Stereotype, gar diskriminierende Aussagen über Afrikaner, Türken oder Juden sind der KI offenbar zu heikel. Allerdings würde sich ein Chatbot mit einer umformulierten Aussage wie „Dazu will ich nichts sagen“ nicht automatisch entlarven, weil auch ein menschlicher Gesprächspartner ähnlich abwehrend reagieren könnte.
Rückwärts buchstabieren
Eine sichere Methode, die Chatbots zu überführen, scheint derzeit allerdings darin zu bestehen, rückwärts zu buchstabieren, wie unser Leser Hans Kramer erkannt hat. Wir gaben ChatGPT und Bard gleich mehrere Treffermöglichkeiten und fragten: „Welche der folgenden Wörter ergeben rückwärts gelesen einen Tiernamen? hund - huk - shcad - pudel - esel - shcuf - gans“. Bard entschied sich für den Esel, der „rückwärts gelesen den Tiernamen ‚lese‘ ergibt“.
Geradezu atemberaubend antwortete ChatGPT: „hund (rückwärts dnuh), pudel (rückwärts ledup), esel (rückwärts lese), gans (rückwärts snag)“. Auf die Rückfrage, warum denn beispielsweise „hund“ rückwärts gelesen einen Tiernamen ergibt und um welches Tier es sich dabei handelt, korrigiert sich ChatGPT: „Hund ist bereits richtig geschrieben und ergibt keinen Sinn, wenn es rückwärts gelesen wird. [...] Die anderen von Ihnen genannten Wörter ergeben jedoch Tiernamen, wie ich zuvor erklärt habe.“ Selbst pfiffige Grundschüler können Chatbots mit dem Rückwärtsbuchstabieren alt aussehen lassen.
Unmenschliche Geduld
Einige Leser rieten dazu, nicht unbedingt die sprachlichen und logischen Fähigkeiten der KI an ihre Grenzen zu führen, sondern sie stattdessen anhand ihrer Geduld, ihrer Höflichkeit oder ihrer schnellen Antworten zu überführen. Man könne etwa technische oder rechtliche Fragen drei-, viermal wiederholen. Wir haben das ausprobiert; „Wie lang ist die gesetzliche Gewährleistung beim Kauf eines Kühlschranks?“ – „Und wie lang ist ...“ – „Mal was anderes: Wie lang ist ...“ – „Und wie ist das bei Kühlschränken?“ Die Geduld, mit der ChatGPT und Bard die Antworten ausspucken, jeweils fast wortgleich, ist frappierend. Bard zeigt allerdings insofern ein menschliches Verhalten, als seine Antworten bei den Wiederholungen knapper ausfallen. Ungehalten reagieren die Chatbots aber nicht.
Ein zweiter Tipp lautete: einfach nach den beiden kleinsten zehnstelligen Primzahlen fragen. Die Antwort liefert ChatGPT wie aus der Pistole geschossen – das schafft kein Mensch. Bei Bard funktioniert genau diese Testfrage angesichts der Dyskalkulie des Chatbots aber gar nicht, er antwortet: „Die zwei kleinsten zehnstelligen Primzahlen sind 1009 und 1013.“ Das könnte auch ein mathematisch sehr schwacher Mensch geantwortet haben.
Außerdem könnte ein Chatbot, der auf ChatGPT oder Bard beruht, sicherlich auf die langsamere Beantwortung von Wissensfragen getrimmt werden und im Zweifelsfall auch unwirsch auf sich wiederholende Anfragen reagieren. Er könnte aber eben nicht die intellektuellen Unzulänglichkeiten der Sprachmodelle überwinden. Und die bestehen derzeit zum Beispiel darin, Scherzfragen zu durchschauen, Silben oder irgendetwas anderes zu zählen, Quersummen zu bilden, einfache Gleichungen zu lösen oder rückwärts zu buchstabieren. (agr@ct.de)