Künstliche Intelligenz: AlphaZero meistert Schach, Shogi und Go

Googles KI-Firma DeepMind hat einen selbstlernenden Algorithmus entwickelt, der Schach und Shogi nur anhand der Regeln gelernt hat und nach nur wenigen Stunden die stärksten Programme schlagen konnte.

212

(Bild: Pixabay)

07.12.2017, 13:37 Uhr

Lesezeit: 4 Min.

Von

Dr. Harald Bögeholz

Die Google-Tochter DeepMind hat mit "AlphaZero" einen Algorithmus entwickelt, der selbstständig die Strategiespiele Schach, Shogi und Go lernt. Und nicht nur das: Die resultierende "Künstliche Intelligenz" (KI) spielt das jeweilige Spiel besser als die stärksten bisherigen Programme (Schach: Stockfish; Shogi: Elmo, Go: AlphaGo Zero 3-day). Bemerkenswert ist vor allem, dass für diese drei unterschiedlichen Strategiespiele im Prinzip ein und dasselbe Verfahren angewendet wird. Grundlage ist wie schon bei der ebenfalls von DeepMind geschaffenen KI AlphaGo ein neuronales Netz.

Bei dem komplexen Strategiespiel Go war es eine Sensation, dass AlphaGo erst den Top-Profi Lee Sedol 4:1 schlug, in einer stärkeren Version 2017 die Nummer eins der Weltrangliste Ke Jie 3:0 wegputzte und dann in einer nochmals verbesserten Version namens AlphaGo Zero das Spiel von Grund auf selbst gelernt hatte und seinen Vorgänger auf die Plätze verwies.

Lernen durch "Rumprobieren"

Obwohl AlphaGo Zero laut DeepMind "ohne menschliches Wissen" über Go auskommt – also nicht mit Partien menschlicher Top-Spieler trainiert wurde – war es vor allem in der Architektur der neuronalen Netze sehr stark auf Go zugeschnitten. Die Fachwelt war daher skeptisch, ob das Verfahren auch auf andere Strategiespiele wie Schach übertragbar ist.

Es ist: In dem jüngst auf arXiv veröffentlichten Forschungspapier "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm" stellt das DeepMind-Team rund um David Silver das Programm AlphaZero vor, das alle drei Spiele binnen kurzer Zeit selbst gelernt hat – und das nur anhand der Regeln und durch Spielen gegen sich selbst.

Massive Rechenleistung beim Training

Wenn das Google-Team schreibt, das Programm habe die Spiele innerhalb von 24 Stunden gelernt, muss man das in Relation zum betriebenen Aufwand sehen: Ganz beiläufig ist in dem Paper erwähnt, dass 5000 Tensor Processing Units (TPU) der ersten Generation und 64 TPUs der zweiten Generation zum Einsatz kamen. TPUs sind Spezialchips für Berechnungen in neuronalen Netzen. Die erwähnte erste Generation leistet 92 Tera-Operationen pro Sekunde; über die zweite weiß man nichts Genaues.

Aber gut: Das fertig trainierte neuronale Netz spielt das Spiel dann auf einer einzelnen Maschine mit nur vier TPUs, was ein halbwegs fairer Vergleich mit den jeweils stärksten Schach- und Shogi-Programmen ist, die immerhin 64 CPU-Kerne zur Verfügung hatten.

Sieg in drei Disziplinen

Laut DeepMind schlug das fertig trainierte AlphaZero unter Turnierbedingungen (eine Minute pro Zug) in jeder der drei Disziplinen das jeweils stärkste bisherige Programm überzeugend. Im Schach war dies das Open-Source-Programm Stockfish, Sieger des Top Chess Engine Championship (TCEC) 2016, im Shogi Elmo, Sieger des 27th World Computer Shogi Championship. Im Go war der Gegner AlphaGo Zero aus dem eigenen Hause.

With a little help ...

Ganz ohne menschliche Hilfe kam aber auch AlphaZero nicht aus: Es ist mitnichten so, dass hier ein Roboter namens AlphaZero seine Kamera auf ein Spielbrett richtet und alles selbst herausfindet. In der Kodierung der Spielposition und der möglichen Züge in Eingabe-Features neuronaler Netze steckt durchaus einiges menschliches Fachwissen, ebenso in der Kodierung der Ausgabe.

Aber es ist vergleichsweise wenig. Und so dürfte es Schach-Kenner faszinieren, dass AlphaZero die populärsten von Menschen gespielten Eröffnungen allesamt entdeckt hat (siehe das DeepMind-Paper) – und einige davon am Ende verworfen hat. (bo)