KI spielt Quake 3 besser als Menschen

Deep Mind hat Kis darauf trainiert, in Quake 3 Capture-The-Flag zu spielen. Die Maschinen spielen besser als Menschen.

In Pocket speichern vorlesen Druckansicht 96 Kommentare lesen
KI spielt Quake 3 besser als Menschen

(Bild: Deep Mind)

Lesezeit: 3 Min.
Inhaltsverzeichnis

Nach ihrer übermenschlichen Go-KI spielt ein Programm der Google-Tochter Deep Mind nun Capture-The-Flag (CTF) besser als Menschen. Die KI-Agenten werten dafür lediglich den vom Shooter-Klassiker Quake 3 berechneten Bildinhalt aus und drücken zum Steuern die Knöpfe virtueller Controller. Deep Mind hat Details zur KI in ihrem Blog veröffentlicht. Weitere Details erklärt das zugehörige Paper.

Zuerst lernt die KI wie man sich bewegt und die grundsätzlichen Regeln des Spiels. In einer zweiten Phase lernt sie sich auf der Karte zurechtzufinden. In der dritten Phase lernt sie Kooperation und Taktik.

(Bild: Human-level performance in first-person multiplayer games with population-based deep reinforcement learning, Jaderberg et. al. 2018)

Im Prinzip funktioniert Deep Minds Quake-KI wie die meisten auf neuronalen Netzen aufbauenden Reinforcement-Learning-Agenten. Ein Convolutional Network mit mehreren Schichten analysiert den Bildinhalt und erzeugt einen Vektor, den ein rekurrentes Netzwerk als Eingabe verwendet. Das berechnet Wahrscheinlichkeiten wie ratsam es ist nun bestimmte Knöpfe zu drücken und versucht vorauszusagen, bei welchen Aktionen eine Belohnung zu erwarten ist. Beim Training belohnt man das Netzwerk, wenn es ein Spiel gewinnt.

Üblichen Agenten dieser Art fehlt die Weitsicht für effektive Strategien. Deswegen nutzt Deep Minds KI Differentiable Neural Computers als Langzeitgedächtnis. Die Forscher konnten zeigen, dass die KI in diesem Speicher nützliche Informationen über die Karte und die Taktik ablegt. So scheinen bestimmte Vektoren den Abstand zur gegnerischen Basis zu codieren, oder ob die eigene Mannschaft gerade im Besitz der Flagge ist. Am Verhalten der Agenten lässt sich erkennen, dass sie beispielsweise ihr Verhalten anpassen, falls das gegnerische Team die eigene Fahne hat.

Wie gut diese Agenten arbeiten, hängt von zahlreichen Hyperparametern ab, die Deep Mind nicht per Hand optimiert hat. Stattdessen erzeugten sie eine Population verschiedener Agenten und ließen mit einem evolutionären Algorithmus nur die Agenten überleben, die besonders gut spielten. Die Hyperparameter der besten neuronalen Netze mutierte der Algorithmus immer wieder, um mit der Zeit noch bessere KIs zu erzeugen.

Die Spielstärke maßen die Forscher mit dem von Schachturnieren bekannten ELO-Score. Die KIs lernten nämlich besonders effektiv, wenn sie gegen ungefähr gleich starke Kontrahenten antraten.

Nach den Trainingsspielen gegen andere KIs organisierte Deep Mind ein Turnier, in dem die KIs gegen erfahrene menschliche Spieler antraten. Die konnten gegen die KI-Teams aber nur wenige Achtungssiege herausschlagen.

Deep Mind ließ auch gemischte Teams aus Menschen und KIs antreten. Die spielten erstaunlich gut zusammen. In einer Umfrage gaben die menschlichen Spieler sogar an, die KI-Mitspieler hätten sich kooperativer verhalten als ihre menschlichen Kollegen.

Da die Menschen in höherer Auflösung spielten, als die KIs, trafen die Spieler erheblich besser auf Distanz. Auf kurze Distanzen war die Treffsicherheit und Reaktionszeit der KIs jedoch deutlich über menschlichem Niveau. Deep Mind reduzierte diese Werte künstlich auf das Niveau von Menschen, ohne die KI neu zu trainieren. Aber auch dann konnten die KIs Menschen noch schlagen, allerdings mit einem geringeren Vorsprung. (pmk)