Der künstliche Intelligenztest

Seite 2: Kann ein Roboter ein Ikea-Regal aufbauen?

Eine weitere Benchmark ist die Allen AI Science Challenge des Allen Institute for Artificial Intelligence. Bei den Testfragen handelt es sich um eine Aufgabensammlung aus standardisierten Klassenarbeiten amerikanischer Achtklässler. Im Gegensatz zum Squad-Test muss eine KI bei solchen Fragen nicht nur ein Mindestmaß an Allgemeinwissen mitbringen, sondern auch in der Lage sein, einfache Schlüsse aus Texten zu ziehen. Eine solche Testfrage könnte lauten: "Die Wettervorhersage erwartet in der Nacht Temperaturen unter dem Gefrierpunkt. Was kannst du tun, um deine Pflanzen vor dem Erfrieren zu schützen?" Gewertet wird dann die Zahl sinnvoller Antworten.

Ein solcher Test lässt sich auch mit Bildern durchführen, wie die Visual Question Answering Challenge (VQA) der US-Universitäten Virginia Tech und Georgia Tech zeigt. Die VQA-Datenbank besteht aus über 260000 Szenen, zu denen die KIs Fragen beantworten sollen wie: "Welche Farbe hat das T-Shirt, das der Junge auf dem Skateboard trägt?" 2016 gewann ein Berkeley-Team den Wettbewerb. Es benutzte zwei neuronale Netze: eines, um die Frage zu verstehen, das andere, um die dazugehörige Szene zu analysieren.

Visuelles Verständnis wird immer besser

Noch ist der Mensch bei jedem dieser neuen Benchmarks der Maschine überlegen. Beim VQA etwa lag die KI mit 66 Prozent korrekter Antworten unter der Leistung des Menschen (etwa 90 Prozent). Bei der Allen AI Science Challenge schaffen Achtklässler regelmäßig 100 Prozent, die besten KIs nur rund 60 Prozent. Doch wer sich die Fortschritte in der Gesichtserkennung vor Augen führt, ahnt: KIs könnten durchaus die restlichen 30 bis 40 Prozent schaffen.

Die Frage ist nur: Messen diese Tests wirklich all das, was menschliche Intelligenz ausmacht? Zweifel sind angebracht, und sie nähren sich aus einem uralten Konsolenspiel von 1979. Damals kam "Asteroids" auf den Markt, von Lyle Rains und Ed Logg für Atari entwickelt. Dabei mussten die Spieler mit einem dreieckigen Raumschiff heranfliegenden Asteroiden ausweichen. Bald fand der Automat weltweit leidenschaftliche Anhänger und wurde mit über 70000 verkauften Exemplaren zu einem der größten Erfolge in der Geschichte der Computerspiele.

Was wenige wissen: Wie beim Schach gibt es auch bei "Asteroids" so etwas wie Großmeister. 1982 erreichte der damals 15-jährige Scott Safran aus Cherry Hill in New Jersey in einer 60-stündigen Spielsession den wahnwitzigen Punktestand von 41336440. Erst im Jahr 2014 legte der 43-jährige Schlosser John McAllister um 2300 Punkte nach. Anders aber als beim Schach kommen Computer bis heute nicht an die Leistung der besten menschlichen Spieler heran. In simpleren Atari-Spielen wie "Video Pinball" oder "Up and Down" haben Computer bereits übermenschliche Leistungen erreicht. Warum nicht bei "Asteroids"?

"Asteroids" als KI-Test

Die Antwort liegt in der Komplexität von Szenen und Interaktionen. Spieler müssen in Sekundenbruchteilen entscheiden, welcher Asteroid ihnen zu nahe kommt, ob sie ihm ausweichen müssen, ihn besser abschießen oder vorbeifliegen lassen können. KIs sind mit solchen Bewertungen heillos überfordert. Das gilt selbst bei unbewegten Bildern. "Stellen Sie sich ein Foto vor von einem Park in der Dämmerung, in dem spielen ein paar Kinder Fußball, andere machen ein Picknick, und im Hintergrund steht der Eiffelturm", sagt Kai-Uwe Kühnberger von der AI Research Group der Universität Osnabrück. Menschen würden dann sofort Dinge erkennen wie: Das ist ein Park in Paris, es ist wahrscheinlich abends, weil man morgens kein Picknick macht, und so weiter. Trotz aller Fortschritte neuronaler Netze beim Erkennen von Objekten sagt Kühnberger: "Beim Beschreiben komplexer Szenen scheitern KIs nach wie vor grandios."

Noch größer wird die Diskrepanz zwischen Mensch und Maschine, wenn die KI einen Körper bekommt – und seine Eigenschaften einberechnen muss. Kaum etwas veranschaulicht diese Schwierigkeit so gut wie der Robocup. Seit 1997 ringen jedes Jahr Teams aus aller Welt darum, mit ihren Robotern den Fähigkeiten von Profifußballern etwas näher zu kommen. 2017 gewann NimbRo-OP2 vom Institut für Informatik der Universität Bonn im Finale der humanoiden Roboter gegen Sweaty von der Hochschule Offenburg. Die beiden Roboter tippelten in winzigen Schritten auf den Ball zu und um ihn herum. Dabei fiel Sweaty immer wieder hin, was NimbRo-OP2 ausnutzte, um sehr, sehr langsam Tore zu schießen. Am Ende stand es 11:0 für das NimbRo-Team.

Rumpeln beim Roboterfußball

"Man muss sehr intelligent sein, um ein guter Fußballer zu sein", sagt Jürgen Schmidhuber, Direktor des Instituts für künstliche Intelligenz an der Università della Svizzera italiana in Lugano. "Menschen verlieren seit 1997 gegen die besten Rechner im Schach, aber beim Fußball können Roboter nicht mal mit einem schlechten Spieler mithalten." Hochzuspringen und dabei den Fuß so zu halten, dass ein anfliegender Ball ins Tor geht: Dazu braucht es die Fähigkeit, Sinnesdaten aus Augen, Ohren oder Körper in passende Reaktionen umzusetzen – und dabei aus Fehlern zu lernen. Es mag ernüchternd sein für viele hochbezahlte Geistesarbeiter, aber hier liegt eine wichtige Komponente menschlicher Intelligenz.

Wirklich klug ist ein Computer also erst dann, wenn er es schafft, die zwei großen Bereiche der künstlichen Intelligenz nahtlos miteinander zu verbinden: das Vermögen, Spielregeln, Grammatik und Logik anzuwenden – wie beim Schachspiel. Und das Erkennen von Mustern in großen Mengen von Sensordaten – einer Disziplin, in der neuronale Netze seit einigen Jahren ihren großen Auftritt haben. Denn Gespräche zu führen, aus Bildern und Filmen zu lernen, Computer oder Fußball zu spielen – all dies kann nur, wer die Welten der Logik und der Sinne zu vereinen vermag. Wie aber könnte ein solcher Test aussehen? Charles Ortiz vom Sprachsoftwarehersteller Nuance hatte dazu im Jahr 2015 einen erstaunlich einfachen Vorschlag: Man sollte Roboter ein Zelt oder ein Ikea-Regal aufbauen lassen. Das mag völlig banal erscheinen – ist aber selbst heute noch utopisch.

(grh)