Top des Jahres: Ohne Beispiel

Der nächste Schritt bei künstlicher Intelligenz: Software lernt, indem sie gegen sich selbst spielt.

13.12.2017, 06:00 Uhr

Lesezeit: 3 Min.

Von

Dr. Wolfgang Stieler

Dass neuronale Netze in der Lage sind, erstaunlich viele Dinge zu lernen, daran haben wir uns schon beinahe gewöhnt. Und so erregte die Nachricht, dass US-Forscher der KI Libratus beigebracht hatten, professionelle Pokerspieler zu schlagen, vergleichsweise wenig Aufsehen.

Das Gleiche galt für die Meldung, dass die Google-Tochter DeepMind eine noch stärkere Go-Software geschrieben hat. AlphaGo Zero, so ihr Name, ist in der Lage, ihren Vorgänger AlphaGo zu schlagen, der 2015 die stärksten menschlichen Spieler vom Brett gefegt hatte.

Bemerkenswert sind diese Erfolge dennoch. Denn beide Systeme haben ihre Fähigkeiten nicht, wie sonst üblich, anhand von Hunderttausenden oder Millionen von Beispielen erlernt, sondern allein dadurch, dass sie immer und immer wieder gegen sich selbst antraten.

Lesen Sie dazu auch den "Flop des Jahres":

Dieselgipfel: Heiße Luft

Sowohl AlphaGo Zero als auch Libratus arbeiten mit "Reinforcement Learning" oder "Verstärkungslernen". Das Prinzip ist seit Langem bekannt – der Psychologe Edward Thorndike beobachtete es bereits 1911. Er sperrte Katzen in Boxen, aus denen sie nur durch Drücken eines Hebels entkommen konnten.

Der Artikel stammt aus der neuen Ausgabe von Technology Review. Das SPECIAL-Heft ist ab 7.12.2017 im Handel und ab sofort im heise shop erhältlich.

TR Special bestellen

Nach zahlreichen Versuchen trafen die Tiere schließlich den Hebel durch Zufall und entkamen mit der Zeit immer schneller. Thorndike schloss daraus, dass sie den Zusammenhang zwischen Hebel und Tür zwar nicht explizit verstanden hatten, aber durch assoziatives Lernen der Zusammenhang zwischen gedrücktem Hebel und offener Tür "verstärkt" wurde.

Schon die Pioniere der KI-Forschung vermuteten, dass sie diese Strategie auch auf Maschinen übertragen könnten. Marvin Minsky, einer der Gründerväter der künstlichen Intelligenz, konstruierte bereits 1951 eine Maschine, die den Weg aus einem einfachen Labyrinth finden konnte. Für die Lösung komplexer Probleme hätte die Maschine aber noch sehr viel mehr künstliche Neuronen gebraucht, was als viel zu aufwendig eingeschätzt wurde. Lange Zeit galt die Idee unter KI-Forschern daher zwar als interessant, aber rechentechnisch zu aufwendig.

2015 änderte sich das. DeepMind zeigte Software, die ungewöhnlich schnell und gut lernte, simple Computerspiele wie Pong zu spielen – ohne explizit programmierte Regeln, nur mit den Computerbildern des Spiels und dem Punktestand als Input. Der Computer probiert dabei alle möglichen Aktionen, bis er etwas Sinnvolles macht, das – irgendwann später – Punkte bringt. Diese Aktion wählt er zukünftig mit einer höheren Wahrscheinlichkeit.

Um zu bewerten, ob ein Spielzug sinnvoll ist oder nicht, muss die Software alle möglichen weiteren Spielverläufe aus einer gegebenen Position durchrechnen. Das kann rechnerisch extrem aufwendig werden. DeepMind löste dieses Problem, indem es das Verstärkungslernen mit tiefen neuronalen Netzen kombinierte. Die neuronalen Netze der ersten AlphaGo-Versionen mussten allerdings trotzdem mit Millionen von Stellungen aus Partien zwischen starken menschlichen Spielern trainiert werden. Die neueste Version AlphaGo Zero dagegen hat das Spiel von Grund auf selbst gelernt, nur aufgrund der Spielregeln.

Die Poker-Software Libratus wiederum verwendet keine tiefen neuronalen Netze, sondern kombiniert bereits existierende Konzepte der Spieltheorie miteinander, um die Zahl möglicher Entscheidungen für die Software geschickt zu minimieren. Tuomas Sandholm und seine Kollegen von der Carnegie Mellon University haben bereits mögliche Praxisanwendungen für ihr Konzept ausgemacht: die Suche nach Arzneimitteln gegen resistente Keime oder das Führen von Verhandlungen zwischen Unternehmen. (wst)