Turing-Test-Studie: Ur-Chatbot Eliza aus den 1960ern schlägt GPT-3.5

In einem Online-Turing-Test konnte das 1966 geschriebene Programm Eliza mehr Probanden davon überzeugen, menschlich zu sein, als ChatGPT in der Gratisversion.

In Pocket speichern vorlesen Druckansicht 171 Kommentare lesen
Artificial,Intelligence,Abstract,Face,Created,By,Neural,Network,Machine,Learning

(Bild: shuttersv/Shutterstock.com)

Lesezeit: 4 Min.

In einer Studie mit einem Online-Turing-Test schnitt das 1966 vom Informatiker Joseph Weizenbaum entwickelte Computerprogramm Eliza erstaunlich gut ab. Es gilt als Vorläufer heutiger Chatbots und Sprachassistenten. Eliza konnte mehr menschliche Teilnehmer dazu verleiten, es als Artgenossen einzuschätzen, als das mit enormen finanziellen Mitteln und umfangreichen Trainingsdaten von Open AI vorangebrachte Künstliche-Intelligenz-Modell GPT 3.5; dieses bildet die Basis für die aktuelle Gratisversion von ChatGPT. Das neuere Sprachmodell GPT 4.0, das zahlende Abonnenten bei dem Chatbot von Open AI verwenden können, schlug sich deutlich besser als die Vorgängervariante. Letztlich konnte aber auch das neue Modell den hier praktizierten Turing-Test nicht bestehen, da es weder eine Erfolgsquote von 50 Prozent erreichte noch die Leistung menschlicher Teilnehmer übertraf.

Der britische Mathematiker und Informatiker Alan Turing stellte den nach ihm benannten Wettbewerb erstmals 1950 als "Imitationsspiel" vor. Seitdem ist er zu einem berühmten, aber umstrittenen Maßstab für die Bestimmung der Fähigkeit einer Maschine avanciert, menschliche Gespräche nachzuahmen. In modernen Varianten des Tests spricht ein menschlicher "Richter" normalerweise entweder mit einem anderen Menschen oder einem Chatbot, ohne zu wissen, wer welcher ist. Wenn der Befrager das Computersystem in einem bestimmten Prozentsatz der Zeit nicht zuverlässig von einem Menschen unterscheiden kann, gilt der Test als bestanden. Da dabei viele subjektive Komponenten eine Rolle spielen, ist vor allem umstritten, ob ein solcher Erfolg auch als menschenähnliches Denkvermögen der Maschine verstanden werden kann.

Für die aktuelle, bisher nicht von anderen Forschern geprüfte Untersuchung, die Ende Oktober auf dem Preprint-Server Arxiv veröffentlicht wurde und die das US-Magazin Ars Technica nun vorstellte, haben die Kognitionswissenschaftler Benjamin Bergen und Cameron Jones von der University of California in San Diego die Webseite turingtest.live eingerichtet, über die sie einen Turing-Test mit zwei Spielern implementierten. Darüber interagierten menschliche Befrager mit verschiedenen "Zeugen", die entweder andere Menschen oder die KI-Modelle GPT-4 und GPT-3.5 sowie das rudimentäre Dialogsystem Eliza auf Basis des Symmetric List Processor (SLIP) repräsentierten. Den menschlichen Teilnehmer wiesen sie nach dem Zufallsprinzip die Rollen des Richters beziehungsweise des Zeugens zu. An dem Experiment nahmen 652 Probanden teil, die insgesamt 1810 Sitzungen absolvierten. 1405 Spiele analysierten die Forscher, nachdem sie bestimmte Szenarien wie zu häufige KI-Spiele hintereinander ausgeschlossen hatten.

Die Erfolgsrate (ER) definierten die Forscher als den Anteil der Sitzungen, in denen der Befrager entschied, dass der Zeuge ein Mensch war. Menschliche Zeugen schnitten mit einer ER von 63 Prozent am besten ab. Der GPT-4-Befehlssatz (Prompt) mit der besten Leistung (Sierra) erreichte eine ER von 41 Prozent. Andere GPT-4-Promptsets wie November oder Papa erbrachten mit 40 beziehungsweise 36 Prozent eine ähnliche Leistung. Die Leistung von GPT-3.5 lag nur zwischen 5 (Victor) und 14 Prozent (Juliet). Eliza kam dagegen auf eine ER von 27 Prozent und übertraf so alle "GPT-3.5-Zeugen" und mehrere GPT-4-Prompts. Die Forscher verweisen auf einige Schwächen der Studie, etwa potenzielle Stichprobenverzerrungen durch die Rekrutierung über soziale Medien und fehlende Anreize für die Teilnehmer, die gewünschte Rolle zu erfüllen. Sie heben auch hervor, dass insbesondere GPT-3.5 bewusst so ausgerichtet worden sei, sich nicht als menschlich zu präsentieren. Andere, nicht öffentlich bekannte Befehlssets könnten deutlich bessere Ergebnisse erzielen.

(tiw)