Der künstliche Intelligenztest

Für Menschen gibt es den IQ. Und für Maschinen? Forscher suchen nach Tests, um festzustellen, wie intelligent eine künstliche Intelligenz wirklich ist – und wann sie den Menschen hinter sich lassen wird.

1

25.06.2018, 06:00 Uhr

Lesezeit: 11 Min.

MIT Technology Review

Von

Christian Honey
Gregor Honsel

Im Jahr 1979 betrat ein Wunderkind aus der Sowjetunion die Bühne des Schachsports: Garri Kasparow gewann mit gerade mal 16 Jahren das internationale Schachturnier in Banja Luka im ehemaligen Jugoslawien. Erst im Jahr 1997 wurde Kasparow wieder in einem wichtigen Turnier geschlagen, diesmal nicht von einem Menschen, sondern von IBMs Schachprogramm Deep Blue. Das war eine Weltsensation.

Lesen Sie dazu auch:

KI gegen KI

Statistik der Woche: Digitale Assistenten

Wenn Computer streiten

Deep Blue war ein Meilenstein - und eine Sackgasse

Schach galt lange als exklusiv menschliche Verstandesleistung. Noch ein Jahr vor dem Spiel soll Kasparow gesagt haben, er werde nie von einem Schachprogramm geschlagen. Nach seiner Niederlage beeilten sich die Experten, die Bedeutung des Schachs zu relativieren: "Der Sieg von Deep Blue wurde einerseits als ,Meilenstein' der KI-Forschung bezeichnet, andererseits als ,Sackgasse', da die Überlegenheit des Schachcomputers auf reiner Rechengewalt beruhe und nichts mit ,wirklicher KI' zu tun habe", fasst Martina Heßler, Sozialwissenschaftlerin an der Universität Hamburg, die damaligen Reaktionen zusammen.

Aber auch weitere vermeintliche Bastionen menschlicher Intelligenz haben Maschinen längst erobert. Sprachrätsel und subtile Anspielungen? Verstand die KI Watson von IBM bereits 2011 besser als die besten Spieler der Welt. Erkennung von Objekten? Schaffte Microsofts Software MRSA 2015 bei der "Large Scale Visual Recognition Challenge" mit einer Fehlerrate von unter fünf Prozent zuverlässiger als menschliche Versuchspersonen.

Entziffern von Handschrift oder Verstehen gesprochener Worte? Können künstliche neuronale Netze ebenfalls längst besser als natürliche. Selbst bei Menschenkenntnis und Einfühlungsvermögen findet der Mensch in der Maschine mittlerweile seinen Meister. Allein aufgrund von Facebook-Likes konnte eine Software von Forschern der University of Cambridge die Persönlichkeitsmerkmale von Menschen besser einschätzen als ihre Lebenspartner. Und Wissenschaftler der Cornell University haben ein Programm geschrieben, das besser als jeder Mensch voraussagt, wann ein Spieler in einem Rollenspiel Verrat begehen wird.

Künstliche Intelligenzen sind Fachidioten

Trotz solcher Erfolge könne von wahrer Intelligenz noch immer nicht die Rede sein, meinen Kritiker wie David Gelernter. Ihr Tenor: Die künstlichen Intelligenzen seien Fachidioten, die immer nur eine Aufgabe beherrschten. Wie intelligent sind Maschinen also wirklich? Der Urvater aller maschinellen Intelligenztests stammt von Informatik-Pionier Alan Turing persönlich. Turing schlug bereits 1950 ein "Imitationsspiel" vor, bei dem Menschen erraten sollen, ob ein Chat-Partner ein Bot ist oder ein anderer Mensch. Wenn man bei diesem Spiel Mensch oder Maschine nicht mehr unterscheiden kann, darf die Maschine nach Turing als intelligent gelten.

Im Jahr 2014, zum 60. Todestag des Mathematikers, unterzog die University of Reading fünf Supercomputer dem Turing-Test: Die Maschinen absolvierten eine Serie schriftlicher Gespräche von jeweils fünf Minuten Dauer. Jene Computer, die in mehr als 30 Prozent der Fälle für einen Menschen gehalten wurden, hatten den Test laut Definition bestanden. "Eugene", eine Entwicklung aus Russland, erreichte eine Überzeugungsquote von 33 Prozent.

"Eugene" wurde für einen Menschen gehalten

Beobachter wiesen allerdings darauf hin, dass Eugene einen Jungen simulierte, dessen Muttersprache nicht Englisch ist. Das dürfte die Juroren dazu verleitet haben, über grammatikalische Fehler leichter hinwegzusehen. Außerdem sei die Zeit von fünf Minuten, die jedes Jurymitglied für die Konversationen sowohl mit Eugene als auch mit einem Menschen hatte, viel zu kurz. Mag sein. Und doch müssen sich die Kritiker eine Frage gefallen lassen: Ist Intelligenz immer das, was Maschinen gerade noch nicht können? Welche Tests müssten Maschinen bestehen, damit wir ihnen so etwas wie "wahre" Intelligenz zugestehen?

Diese Fragen sind weit mehr als philosophische Spitzfindigkeiten. Zum einen "braucht KI wie jedes Forschungsfeld, klare Ziele", schreibt Gary Marcus, Psychologe an der New York University. "Der Turing-Test war ein netter Anfang. Jetzt wird es Zeit für eine neue Generation von Herausforderungen." Zum anderen könnten derartige Tests nicht nur zeigen, wie nah die Maschinen uns wirklich gekommen sind – sondern auch viel über uns selbst verraten. Denn wer die Intelligenz von Computern vermessen will, muss unweigerlich die Frage beantworten: Was meinen wir eigentlich mit Intelligenz?

Lange galt das rein analytische Denken als Messlatte. Doch spätestens mit dem Sieg einer KI beim Brettspiel Go ist sie gerissen. Der "Stanford Question Answering Dataset" (Squad) geht daher einen Schritt weiter. Er ermittelt die Fähigkeit, die Bedeutung von Texten zu verstehen. Die Datenbank besteht aus über 50000 kurzen Ausschnitten aus Wikipedia-Artikeln und über 100000 Verständnisfragen dazu. Seit Oktober 2017 führt ein neuronales Netz von Microsoft die Rangliste mit 79 Prozent korrekter Antworten an.

Kann ein Roboter ein Ikea-Regal aufbauen?

Eine weitere Benchmark ist die Allen AI Science Challenge des Allen Institute for Artificial Intelligence. Bei den Testfragen handelt es sich um eine Aufgabensammlung aus standardisierten Klassenarbeiten amerikanischer Achtklässler. Im Gegensatz zum Squad-Test muss eine KI bei solchen Fragen nicht nur ein Mindestmaß an Allgemeinwissen mitbringen, sondern auch in der Lage sein, einfache Schlüsse aus Texten zu ziehen. Eine solche Testfrage könnte lauten: "Die Wettervorhersage erwartet in der Nacht Temperaturen unter dem Gefrierpunkt. Was kannst du tun, um deine Pflanzen vor dem Erfrieren zu schützen?" Gewertet wird dann die Zahl sinnvoller Antworten.

Ein solcher Test lässt sich auch mit Bildern durchführen, wie die Visual Question Answering Challenge (VQA) der US-Universitäten Virginia Tech und Georgia Tech zeigt. Die VQA-Datenbank besteht aus über 260000 Szenen, zu denen die KIs Fragen beantworten sollen wie: "Welche Farbe hat das T-Shirt, das der Junge auf dem Skateboard trägt?" 2016 gewann ein Berkeley-Team den Wettbewerb. Es benutzte zwei neuronale Netze: eines, um die Frage zu verstehen, das andere, um die dazugehörige Szene zu analysieren.

Visuelles Verständnis wird immer besser

Noch ist der Mensch bei jedem dieser neuen Benchmarks der Maschine überlegen. Beim VQA etwa lag die KI mit 66 Prozent korrekter Antworten unter der Leistung des Menschen (etwa 90 Prozent). Bei der Allen AI Science Challenge schaffen Achtklässler regelmäßig 100 Prozent, die besten KIs nur rund 60 Prozent. Doch wer sich die Fortschritte in der Gesichtserkennung vor Augen führt, ahnt: KIs könnten durchaus die restlichen 30 bis 40 Prozent schaffen.

Die Frage ist nur: Messen diese Tests wirklich all das, was menschliche Intelligenz ausmacht? Zweifel sind angebracht, und sie nähren sich aus einem uralten Konsolenspiel von 1979. Damals kam "Asteroids" auf den Markt, von Lyle Rains und Ed Logg für Atari entwickelt. Dabei mussten die Spieler mit einem dreieckigen Raumschiff heranfliegenden Asteroiden ausweichen. Bald fand der Automat weltweit leidenschaftliche Anhänger und wurde mit über 70000 verkauften Exemplaren zu einem der größten Erfolge in der Geschichte der Computerspiele.

Was wenige wissen: Wie beim Schach gibt es auch bei "Asteroids" so etwas wie Großmeister. 1982 erreichte der damals 15-jährige Scott Safran aus Cherry Hill in New Jersey in einer 60-stündigen Spielsession den wahnwitzigen Punktestand von 41336440. Erst im Jahr 2014 legte der 43-jährige Schlosser John McAllister um 2300 Punkte nach. Anders aber als beim Schach kommen Computer bis heute nicht an die Leistung der besten menschlichen Spieler heran. In simpleren Atari-Spielen wie "Video Pinball" oder "Up and Down" haben Computer bereits übermenschliche Leistungen erreicht. Warum nicht bei "Asteroids"?

"Asteroids" als KI-Test

Die Antwort liegt in der Komplexität von Szenen und Interaktionen. Spieler müssen in Sekundenbruchteilen entscheiden, welcher Asteroid ihnen zu nahe kommt, ob sie ihm ausweichen müssen, ihn besser abschießen oder vorbeifliegen lassen können. KIs sind mit solchen Bewertungen heillos überfordert. Das gilt selbst bei unbewegten Bildern. "Stellen Sie sich ein Foto vor von einem Park in der Dämmerung, in dem spielen ein paar Kinder Fußball, andere machen ein Picknick, und im Hintergrund steht der Eiffelturm", sagt Kai-Uwe Kühnberger von der AI Research Group der Universität Osnabrück. Menschen würden dann sofort Dinge erkennen wie: Das ist ein Park in Paris, es ist wahrscheinlich abends, weil man morgens kein Picknick macht, und so weiter. Trotz aller Fortschritte neuronaler Netze beim Erkennen von Objekten sagt Kühnberger: "Beim Beschreiben komplexer Szenen scheitern KIs nach wie vor grandios."

Noch größer wird die Diskrepanz zwischen Mensch und Maschine, wenn die KI einen Körper bekommt – und seine Eigenschaften einberechnen muss. Kaum etwas veranschaulicht diese Schwierigkeit so gut wie der Robocup. Seit 1997 ringen jedes Jahr Teams aus aller Welt darum, mit ihren Robotern den Fähigkeiten von Profifußballern etwas näher zu kommen. 2017 gewann NimbRo-OP2 vom Institut für Informatik der Universität Bonn im Finale der humanoiden Roboter gegen Sweaty von der Hochschule Offenburg. Die beiden Roboter tippelten in winzigen Schritten auf den Ball zu und um ihn herum. Dabei fiel Sweaty immer wieder hin, was NimbRo-OP2 ausnutzte, um sehr, sehr langsam Tore zu schießen. Am Ende stand es 11:0 für das NimbRo-Team.

Rumpeln beim Roboterfußball

"Man muss sehr intelligent sein, um ein guter Fußballer zu sein", sagt Jürgen Schmidhuber, Direktor des Instituts für künstliche Intelligenz an der Università della Svizzera italiana in Lugano. "Menschen verlieren seit 1997 gegen die besten Rechner im Schach, aber beim Fußball können Roboter nicht mal mit einem schlechten Spieler mithalten." Hochzuspringen und dabei den Fuß so zu halten, dass ein anfliegender Ball ins Tor geht: Dazu braucht es die Fähigkeit, Sinnesdaten aus Augen, Ohren oder Körper in passende Reaktionen umzusetzen – und dabei aus Fehlern zu lernen. Es mag ernüchternd sein für viele hochbezahlte Geistesarbeiter, aber hier liegt eine wichtige Komponente menschlicher Intelligenz.

Wirklich klug ist ein Computer also erst dann, wenn er es schafft, die zwei großen Bereiche der künstlichen Intelligenz nahtlos miteinander zu verbinden: das Vermögen, Spielregeln, Grammatik und Logik anzuwenden – wie beim Schachspiel. Und das Erkennen von Mustern in großen Mengen von Sensordaten – einer Disziplin, in der neuronale Netze seit einigen Jahren ihren großen Auftritt haben. Denn Gespräche zu führen, aus Bildern und Filmen zu lernen, Computer oder Fußball zu spielen – all dies kann nur, wer die Welten der Logik und der Sinne zu vereinen vermag. Wie aber könnte ein solcher Test aussehen? Charles Ortiz vom Sprachsoftwarehersteller Nuance hatte dazu im Jahr 2015 einen erstaunlich einfachen Vorschlag: Man sollte Roboter ein Zelt oder ein Ikea-Regal aufbauen lassen. Das mag völlig banal erscheinen – ist aber selbst heute noch utopisch.

(grh)