Chatbot-Studie: GPT-4 hat laut Forschern den Turing-Test bestanden

Teilnehmer einer Online-Simulation schätzten einen Bot auf Basis des KI-Modells GPT-4 in 54 Prozent der Fälle als menschlich ein. GPT-3.5 kam auf 50 Prozent.

326

(Bild: incrediblephoto / Shutterstock.com)

16.06.2024, 12:53 Uhr

Lesezeit: 4 Min.

Von

Stefan Krempl

Immer mehr Menschen können GPT-4 in einem Turing-Test nicht mehr von einem Menschen unterscheiden. Das ist das Ergebnis einer Studie der Kognitionswissenschaftler Benjamin Bergen und Cameron Jones von der University of California in San Diego.

Mensch oder Machine?

In einer Online-Simulation auf der Webseite turingtest.live schätzten 54 Prozent der knapp 500 Teilnehmer das hinter ChatGPT stehende Modell für Künstliche Intelligenz (KI) als menschlich ein. Die Vorgängervariante GPT-3.5 erreichte eine Erfolgsquote von 50 Prozent. Ihren Artgenossen bescheinigten 67 Prozent der Probanden richtig, dass sie Menschen sind. Am schlechtesten schnitt das 1966 vom Informatiker Joseph Weizenbaum entwickelte Computerprogramm Eliza ab, das nur 22 Prozent als menschlich einstuften.

Die Ergebnisse liefern den Wissenschaftlern zufolge den ersten soliden empirischen Beweis dafür, dass ein KI-System einen interaktiven Turing-Test mit zwei Spielern bestanden hat und dies künftig für schier jeden Chatbot auf dem Stand der Technik gelten dürfte. Der britische Mathematiker und Informatiker Alan Turing stellte das nach ihm benannte Konversations-Kräftemessen erstmals 1950 als "Imitationsspiel" vor.

Seitdem ist es zu einem berühmten, aber umstrittenen Maßstab für die Bestimmung der Fähigkeit einer Maschine avanciert, menschliche Gespräche nachzuahmen. In modernen Varianten des Tests spricht ein menschlicher "Richter" entweder mit einem anderen Menschen oder einem Chatbot, ohne zu wissen, wer welcher ist. Wenn der Befrager das Computersystem in 50 Prozent der Fälle nicht zuverlässig von einem Menschen unterscheiden kann, gilt der Test von der Maschine als bestanden.

Für die aktuelle Untersuchung, deren Ergebnisse auf dem Preprint-Server Arxiv zu finden sind, interagierten menschliche Vernehmer mit verschiedenen "Zeugen", die entweder andere Menschen, die großen Sprachmodelle GPT-4 und GPT-3.5 sowie das rudimentäre Dialogsystem Eliza auf Basis des Symmetric List Processor (SLIP) repräsentierten. Den menschlichen Teilnehmern wiesen die Forscher nach dem Zufallsprinzip die Rollen des Richters oder des Zeugens zu. Die Stichprobe bestand aus je 101 Menschen- und GPT-3.5-Spielen sowie je 100 GPT-4- und Eliza-Runden, die alle über eine Art Messaging-App liefen und je fünf Minuten dauerten. Von den 402 Verhörern waren 168 weiblich, 212 männlich und 9 nichtbinär. 13 wollten keine Angaben machen. Das durchschnittliche Alter der Teilnehmer betrug 35 Jahre.

Videos by heise

Maschine sollte nicht als besserwissend rüberkommen

In einer Vorgängerstudie 2023 hatte Eliza noch deutlich besser abgeschnitten und keines der Modelle den Test bestanden. Die Wissenschaftler nahmen diesmal den GPT-4-Befehlssatz (Prompt) mit der besten Leistung und modifizierten ihn. Der erste Teil der Eingabeaufforderung wies das Modell an, sich so zu verhalten, als wäre es ein junger Mensch, der das Spiel nicht allzu ernst nimmt, Umgangssprache verwendet und Rechtschreib- und Grammatikfehler macht. Zudem sollte es nicht mit allzu viel Wissen aufwarten, insbesondere rund um Sprachen und Mathematik.

Zu Beginn jedes Spiels kamen mehrere zusätzliche Informationen dazu wie Name, Standort und Zeitstempel. Dass Menschen Artgenossen nicht zu 100 Prozent erkannten, erklärt das Duo damit, dass die Fragesteller die KI als zunehmend leistungsfähig erachteten. Damit steige die Wahrscheinlichkeit, dass sie Menschen fälschlicherweise als Maschine identifizierten.

Um qualitative Einblicke in die Faktoren zu gewinnen, die die Entscheidungen der Vernehmer beeinflussten, klassifizierte das Team die von diesen genutzten Strategien und die Begründungen, die sie für ihr Urteil lieferten. 36 Prozent fragten die Zeugen nach persönlichen Details oder ihren täglichen Aktivitäten. Die zweit- und dritthäufigsten Kategorien waren sozial und emotional (25 Prozent) – zum Beispiel Fragen nach Meinungen, Erfahrungen und Humor.

Die von den Vernehmern am häufigsten genannten Gründe für ihre Entscheidungen (43 Prozent) bezogen sich auf den Sprachstil anhand von Rechtschreibung, Grammatik, Groß- und Kleinschreibung und Tonfall. 24 Prozent stellten auf sozioemotionale Faktoren wie Sinn für Humor oder Persönlichkeit ab. Die Forscher warnen: Die Resultate deuteten darauf hin, "dass Täuschungen durch aktuelle KI-Systeme möglicherweise unentdeckt bleiben". Bots, die Menschen erfolgreich imitieren können, dürften "weitreichende wirtschaftliche und soziale Folgen haben".