Ist der Turing-Test nach Lamda noch aktuell?

Wenn ein Experte einem Chatbot ein Bewusstsein zuschreibt, ist der Turing-Test damit bestanden? Und wenn ja, warum interessiert das keinen?

In Pocket speichern vorlesen Druckansicht 186 Kommentare lesen

(Bild: Skorzewiak/Shutterstock.com)

Lesezeit: 4 Min.

Auf die Frage, ob es möglich sei, eine denkende, intelligente Maschine zu bauen, gab Informatik-Pionier Alan Turing eine ziemlich pragmatische Antwort: Wenn die Maschine in der Lage ist, einem Menschen vorzugaukeln, sie sei ein Mensch, dann ist es herzlich egal, ob sie wirklich intelligent ist. Das Kriterium – Maschine kann Mensch in einem Dialog Menschlichkeit vortäuschen – wird seitdem als „Turing-Test“ bezeichnet.

Alan Turing selbst beschreibt das „Imitation Game“ in seinem Artikel so: Ein menschlicher Fragesteller solle sich nur per Tastatur und Bildschirm mit einem Computer und einem Menschen unterhalten. Kann er in einem signifikanten Teil der Gespräche nicht die Maschine erkennen, hat die Maschine den Test bestanden. Der Vorschlag ist allerdings recht vage – weder die Länge des Dialogs ist definiert noch irgendwelche Anforderungen an den testenden Menschen oder gar die Fragen, die der Tester stellen darf. Zudem orientiert sich der Test nur an einer einzigen – menschlichen – Fertigkeit: Sprache korrekt zu verarbeiten. Andere Funktionen wie Bildverarbeitung oder Bewegungssteuerung, die ebenfalls höhere kognitive Fähigkeiten benötigen, werden nicht berücksichtigt.

In einem viel diskutierten Artikel bezeichneten die Informatiker Patrick Hayes und Kenneth Ford es 1995 sogar als schädlich für die KI-Forschung, sich an Turings Vorschlag zu orientieren. „Es gehört zu den Grundlagen, die Studierende von Anfang an lernen, dass man ein Experiment nicht so konzipieren darf, dass das Ergebnis ist, Nichts zu finden“, schreiben Hayes und Ford in ihrem Paper. „Aber genau das macht der Turing-Test. Man kann nie sicher sagen, ob es wirklich keinen Unterschied zwischen Mensch und Maschine gibt, oder der Tester nicht clever genug war.“ An dem 1991 von dem Soziologen Hugh Loebner ausgeschriebenen, jährlich stattfindenden Loebner-Prize-Wettbewerb, in dessen Rahmen für einen Chatbot, der den Turing-Test besteht, 100.000 Dollar Preisgeld ausgeschrieben waren, beteiligten sich denn auch kaum akademische Gruppen. Der Wettbewerb wurde 2019 zuletzt durchgeführt – ob er zukünftig fortgeführt wird, ist unklar.

Bei einem von der britischen Royal Society durchgeführten Turing-Test gelang es 2014 allerdings tatsächlich einem Chatbot, die Tester von seiner Menschlichkeit zu überzeugen. Allerdings arbeitete das Programm mit diversen Tricks – unter anderem hat es behauptet, ein Teenager zu sein, der nur sehr unvollkommen Englisch sprechen kann.

Die Association for the Advancement of Artificial Intelligence widmete sich in einem Workshop prompt der Weiterentwicklung des Turing-Tests, der zukünftig auf das Abarbeiten einer ganzen Reihe verschiedenster Aufgaben erweitert werden sollte. So schlug Gary Marcus von der New York University beispielsweise vor, dass die KI, verbunden mit einem Roboter, Ikea-Möbel aufbauen soll. Das erfordere nicht nur die Fähigkeit, Bilder und Text zu erfassen und zu verstehen, sondern auch körperliche Geschicklichkeit, Zähigkeit – und Frustrationstoleranz.

Auf Grund von praktischen Schwierigkeiten hat sich dieser Vorschlag jedoch bislang nicht durchgesetzt. 2014 schlug der Informatiker Hector Levesque jedoch eine Methode vor, an der auch mächtige Sprachmodelle scheiterten: die Winograd Challenge. Der Test besteht aus zwei Sätzen, die einfache Sachverhalte schildern, aber mehrdeutige Bezüge haben. In der auf die Sätze folgenden Frage muss die Maschine zeigen, dass sie die Beziehungen der Subjekte und Objekte zueinander berücksichtigen kann – also beispielsweise versteht, dass ein Hut in einen Koffer passt, aber ein Koffer nicht in einen Hut. Doch auch diese Barriere ist allerdings mittlerweile gefallen: Es gibt Sprachmodelle, die auch diesen Test knacken.

Eine internationale Arbeitsgruppe von Google schlägt deshalb vor, eine Art Benchmark aus 204 Aufgaben zu bilden, die eine KI abarbeiten muss. Andere Forschende wollen gar, dass KI und Mensch sich wechselseitig bewerten sollten oder dass die KI eine Aufgabe lösen muss, die von Tieren erledigt werden kann. Ein grundsätzliches Problem können aber auch die erweiterten Tests nicht lösen: Selbst wenn die KI die Aufgaben perfekt schafft, kann man nicht unterscheiden, ob sie sich intelligent verhält oder intelligentes Verhalten nur perfekt imitiert. Aber wahrscheinlich hatte Turing in diesem Fall wirklich Recht: Eigentlich macht das keinen Unterschied.

(wst)