Drei Fragen und Antworten: Ist NetHack das perfekte KI-Spiel?

Obwohl KI mittlerweile ein Bewusstsein entwickelt haben soll, beißt sie sich am Urgestein NetHack die Zähne aus. Das zeigt die Grenzen von Machine Learning.

In Pocket speichern vorlesen Druckansicht 19 Kommentare lesen
Lesezeit: 6 Min.

NetHack ist ein extrem komplexes und unverzeihliches Spiel: Sobald der Spielcharakter stirbt, muss man von Neuem starten. Ob Anfängern oder sehr guter Spieler, das Spielende kommt häufig und oft überraschend. Um herauszufinden, ob Deep Reinforcement Learning NetHack gewachsen ist, veranstalteten KI-Forscher im letzten Jahr die NetHack Challenge. Dabei traten klassische, handprogrammierte Bots und KI-Agenten gegen das Spiel an. Tim Rocktäschel und Heinrich Küttler erzählen, warum das Spiel für das Entwickeln und Testen von KI so ein guter Benchmark ist.

Tim Rocktäschel

Tim Rocktäschel ist Associate Professor am University College London (UCL) Artificial Intelligence Centre und Scholar des European Laboratory for Learning and Intelligent Systems (ELLIS). Seine Forschungsgruppe beschäftigt sich mit autonom- und selbstmotiviert-lernenden Agenten in komplexen Umgebungen.

Heinrich Küttler

Heinrich Küttler ist nach Stationen bei Facebook AI Research, DeepMind, Google und einer Promotion in mathematischer Physik an der LMU München Teil des Gründerteams von Inflection AI.

Warum konnte keiner der Agenten NetHack aufsteigen und damit das Spiel schlagen?

Tim: Künstliche Intelligenz hat über das letzte Jahrzehnt unvorstellbare Fortschritte gemacht. Dabei zog man oft Computerspiele wie StarCraft II, Dota 2 oder Minecraft und Brettspiele wie Schach, Go und Diplomacy als Meilensteine für das Testen von intelligentem Verhalten heran. NetHack ist eines der schwersten Computerspiele der Geschichte. Es bereitet menschlichen Spielern nicht nur Kopfschmerzen und führt zum häufigen Tod des Spielcharakters, sondern es bietet auch viele Herausforderungen, die die jetzige KI noch nicht lösen kann. Das Spiel ist hochkomplex und beinhaltet hunderte Gegenstände und Monster, über die ein erfolgreicher Spieler Bescheid wissen muss. Anders als Schach und Go ist es nur partiell beobachtbar – ähnlich wie beim Poker müssen Spielerinnen und Spieler eine Vorstellung davon entwickeln, was vermutlich wirklich ist. NetHack ist extrem lang, ein erfolgreiches Spiel kann leicht 100.000 Aktionen beinhalten. Das Spiel ist stochastisch, wie bei Dungeons & Dragons und vielen anderen RPGs ist der Ausgang von Aktionen oft dem Zufall überlassen. Und letztlich ist es prozedural generiert. Jedes Spiel führt zu anderen, neuen Situationen, an die sich der Spieler anpassen muss.

Obwohl NetHack visuell einfach gestrickt ist, glauben wir, dass KI-Methoden, die NetHack erlernen können, auch für Probleme in der realen Welt spannend sein werden. So ist es zum Beispiel ein offenes Problem, KI-Methoden zu entwickeln, die mit unvorhergesehenen Situationen robust umgehen können. Dass es weder programmierte Bots noch trainierte Deep Reinforcement Learning Agenten geschafft haben, in diesem Spiel besonders weit zu kommen, zeigt uns, dass es in der KI noch viel zu erforschen gibt und dass NetHack auf absehbare Zeit ein spannender Meilenstein bleiben wird.

Der Alternativplan zum Schlagen des Spiels war in der Challenge das Sammeln von Punkten. Waren die Sieger des Wettbewerbs also speziell auf das Optimieren des Highscores ausgerichtet?

Tim: Ja, und daraus ergaben sich Probleme. Das Sammeln von Punkten führt zu lokalen Optima, in denen sich KI-Methoden einfangen lassen. Am Ende geht es bei NetHack aber nicht um Punkte, sondern darum, das Spielziel zu erreichen. Es gibt einige Profispieler, die das Spielziel mit einer minimalen Punktzahl zu erreichen versuchen – was außerordentliches Geschick benötigt. Sobald man einer KI Punkte zur Belohnung gibt, versucht sie diese Punkte zu maximieren. Was aber, wenn es sinnvoll ist, Aktionen zu bevorzugen, die zeitweise nicht zur Erhöhung der Punkte führen? Ein klassisches Beispiel in NetHack ist, dass gute Spieler sich genau überlegen, ob sie wirklich jedes Monster auf dem Weg erledigen wollen. Mehr Erfahrungspunkte und ein höheres Spielerlevel führen dazu, dass das Spiel dem Spielcharakter immer stärkere Monster entgegenschickt. Schlecht, wenn man noch nicht die richtige Ausrüstung gefunden hat, um diesen neuen Gefahren zu begegnen.

Welche bessere Lösung gibt es, wenn das belohnungsorientierte Machine-Learning in solchen Fällen problematisch ist?

Heinrich: Inhärent neugierige Agenten könnten eine Lösung sein. Bei dem Modell will der Agent einfach neues, für ihn unvorhersehbares erleben. Ein Problem mit diesem Ansatz ist das „rauschender Fernseher-Problem“. Sollte der Agent das weiße Rauschen eines Fernsehers sehen, könnte er merken, dass er die genaue Entwicklung der schwarz-weißen Punkte nicht vorhersehen kann und daher für immer vor diesem Rauschen stehenbleiben. Vor einem ähnlichen Problem stehen übrigens auch Neurowissenschaftler, die die Wirkungsweise des menschlichen Gehirns erforschen wollen. Beispielsweise Karl Friston fragt, warum Menschen nicht einfach in einem dunklen Raum sitzen bleiben, in dem man die zukünftigen Eindrücke – der Raum bleibt dunkel – am besten voraussagen kann.

Das Problem mit Rewards ist immer, dass jemand sie definieren muss. Oft ist das, was man eigentlich will, nicht das, was man sagt. Das ist ähnlich wie beim Großwesir und dem Dschinni bei Aladdin. Aladdin redet dem Großwesir den Wunsch ein, zu einem Dschinni zu werden, da dieser mächtiger sei als er. Als Dschinni dem Wesir diesen Wunsch erfüllt, ist Dschafar in einer Wunderlampe gefangen; denn auch zum größten Dschinni gehört stets eine Lampe, die ihn zum Diener macht. So spiegeln sich klassische Märchen sich in moderner KI-Forschung und Menschen sind noch immer schlecht darin, wirklich zu sagen oder zu programmieren, was sie wollen.

Tim und Heinrich, vielen Dank für eure Antworten. Zuletzt machte die Methode des Video PreTraining für Minecraft von sich reden, bei der OpenAI eine KI mit tausenden Stunden von menschlichen Gameplays trainierte. Mehr zur NetHack Challenge des letzten Jahres findet sich auf der Webseite des Wettbewerbs. Die Initiatoren haben ihre Erkenntnisse aus der Challenge auch in einem Paper festgehalten.

In der Serie „Drei Fragen und Antworten“ will die iX die heutigen Herausforderungen der IT auf den Punkt bringen – egal ob es sich um den Blick des Anwenders vorm PC, die Sicht des Managers oder den Alltag eines Administrators handelt. Haben Sie Anregungen aus Ihrer tagtäglichen Praxis oder der Ihrer Nutzer? Wessen Tipps zu welchem Thema würden Sie gerne kurz und knackig lesen? Dann schreiben Sie uns gerne oder hinterlassen Sie einen Kommentar im Forum.

(pst)