"Eugene" und der angeblich bestandene Turing Test: So einfach nun dann doch nicht...

Hat am Wochenende erstmals ein Computerprogramm den Turing-Test bestanden? An den Modalitäten des Siegs von "Eugene" wird immer mehr Kritik laut. Das eigentliche, ambitionierte Ziel Turings wird noch immer verfehlt.

In Pocket speichern vorlesen Druckansicht 225 Kommentare lesen
Lesezeit: 4 Min.

Nachdem mit "Eugene" erstmals ein Computerprogramm den Turing-Test bestanden haben soll, wird nun immer mehr Kritik an den Modalitäten des Tests und dem Ergebnis laut. Am Samstag – dem 60. Todestag des britischen Mathematikers Alan Turing – hatte die University of Reading fünf Programme dem Test unterzogen, um zu sehen, ob sie in einer schriftlichen Konversation in mindestens 30 Prozent der Fälle als menschlicher Gesprächspartner durchgehen. Das russischen Programm "Eugene" – ein Skript, kein "Supercomputer" – überzeugte demnach in 33 Prozent der Fälle seine Gegenüber ein 13-jähriger Junge aus der Ukraine zu sein.

Wer sitzt am anderen Ende der Leitung?

Genau an diesem Punkt setzt nun bereits Kritik an. So weisen Beobachter darauf hin, dass "Eugene" einen Jungen simuliert, der Englisch nicht als Muttersprache spricht. Das dürfte die Juroren dazu verleitet haben, über grammatikalische Fehler leichter hinweg zu sehen. Außerdem sei die Zeit von fünf Minuten, die jedes Jurymitglied für beide Konversationen – mit "Eugene" und mit einem Menschen – hatte, viel zu kurz. Dadurch blieben gerade mal zweieinhalb Minuten für das Gespräch mit dem Computer, kritisiert Hugh Loebner. Loebner organisiert dem Loebner Prize eine Konkurrenzveranstaltung, bei der die Computer 25 Minuten durchhalten müssen.

Es gibt aber auch noch grundsätzlichere Kritik. Gary Marcus, ein Professor für Kognitionswissenschaft an der New York University, erklärt, am Wochenende habe lediglich ein Programm Erfolg gehabt, das durch verschiedene Tricks seine Beschränkungen verschleiert. Das sei schon bei dessen entferntem Vorfahren Eliza so gewesen. Dessen Schöpfer, der Computerwissenschaflter Kulturkritiker Joseph Weizenbaum hatte bereits vor Jahrzehnten beobachtet und kritisiert, wie schnell Menschen bereit waren, einem Programm Intelligenz zuzuschreiben.

Marcus weist nun darauf hin, dass "Eugene" immer das Thema wechsle, wenn es nicht mit der Frage klarkomme – was meist der Fall sei. Derartige Programme würden also vielmehr auf Theater und Irreführung setzen, als wirklich Intelligenz zu simulieren. Dagegen würde sich fast kein Entwickler dem widmen, was Turing tatsächlich im Kopf hatte; eine flexible, "Allgemeinintelligenz" zu schaffen, wie die Menschen sie darstellen. Stattdessen könnte auch hochentwickelte Programme nur einzelne ganz spezifische Aufgaben lösen (etwa erfolgreich Schach oder Jeopardy spielen).

Das Transkript einer Konversation von "Eugene" aus dem Wettbewerb bestätigt diese Kritik von Marcus. Doug Aamoth hat seine Konversation mit dem Programm veröffentlicht. Das wechselt tatsächlich mehrmals das Gesprächsthema und fragt insgesamt drei Mal, wo sein Gesprächspartner lebt. Ob Aamoth danach auf Mensch oder Maschine getippt hat, schreibt er aber nicht. Deutlich begeisterter gibt sich der Schauspieler Robert Llewellyn ("Red Dwarf") . Vier mal sei er sich sicher gewesen, den Computer erkannt zu haben. "Jedes Mal lag ich falsch".

Insgesamt verdeutlicht das Geschehen vom Wochenende aber eher grundlegende Probleme des Turing-Tests. Alan Turing selbst beschrieb den Testaufbau eher allgemein: Ein menschlicher Fragesteller solle sich nur per Tastatur und Bildschirm mit einem Computer und einem Menschen unterhalten. Kann er in einem signifikanten Teil der Gespräche nicht die Maschine erkennen, ist der Turing-Test bestanden. Dabei wird nicht gesagt, welches Alter die Maschine simulieren oder wie lang das Gespräch dauern soll. Indem nun ein Junge simuliert wurde, der Englisch nur als Fremdsprache kennt und außerdem nur wenige Minuten durchhalten muss, sind die Regeln sicher viel zu maschinenfreundlich festgelegt worden.

Marcus jedenfalls kritisiert, dass sich die Programmierer damit viel zu sehr auf die Testbedingungen einstellen und die Kriterien für das Bestehen nicht ausreichen. Deswegen schlägt er einen neuen Turing-Test vor, einen für das 21. Jahrhundert. Dabei müsse ein Programm eine zufällige Fernsehsendung oder ein Youtube-Video angucken und danach Fragen beantworten. Beispielsweise "Warum annektierte Russland die Krim?" oder "Warum überlegte Walter White, Jesse anzugreifen". Existierende Programme könnten sich um solche Fragen höchstens herumschwindeln ("Habe ich nicht gesehen"). Aber um wirkliche Intelligenz zu imitieren – und darum ging es Alan Turing –, müssten sie "Die Simpsons" gucken und uns Bescheid sagen können, wann gelacht werden soll. (mho)