Black Hat 2020: Neuer Gaming-Lernalgorithmus fährt die Ellenbogen aus

Ein auf der BHUSA20 vorgestellter Deep Reinforcement Learning-Algorithmus trainiert KI-Agenten für Videospiele primär darauf, Gegnern Chancen zu verbauen.

In Pocket speichern vorlesen Druckansicht 32 Kommentare lesen
BlackHat 2020: Neuer Lernalgorithmus setzt auf ungewöhnliche Gaming-Strategie

(Bild: Freedomz / Shutterstock.com)

Lesezeit: 4 Min.
Inhaltsverzeichnis

Ein US-Forscherteam der Pennsylvania State University hat im Rahmen der diesjährigen Black Hat USA einen Deep Reinforcement Learning-Algorithmus vorgestellt, der KI-Agenten für Videospiele in der Schlacht gegen die jeweilige Spiele-KI effektiver zum Sieg führen soll als bisher genutzte Angriffsstrategien. Nach ersten Trainings und Tests mit ihrem Algorithmus konnten die Forscher – in starker Abhängigkeit von den Regeln und Bedingungen des jeweiligen Spiels – in vielen Fällen höher punkten als bei Verwendung eines älteren Algorithmus von Forschern der Berkeley University, der im Februar dieses Jahres auf der ICLR-Konferenz vorgestellt worden war.

Der Begriff Deep Reinforcement Learning (DRL) setzt sich aus dem (mitunter synonym gebrauchten) "Reinforcement Learning" und "Deep Learning" zusammen. Grob gesagt werden hier tiefe neuronale Netze mit der Lernstrategie des Reinforcement Learning ausgestattet, bei der der KI-Agent mit der Zeit lernt, welche Strategien zum Erfolg führen und wie sich diese perfektionieren lassen.

In ihrem Vortrag "Ruling StarCraft Game Spitefully – Exploiting the Blind Spot of AI-Powered Game Bots" erläuterten die Forscher die Besonderheit ihres Algorithmus: Die angreifende KI beziehungsweise der "Adversarial Agent" lerne dabei nicht vorrangig, die eigene Belohnung zu maximieren, sondern konzentriere sich vor allem auch darauf, die gegnerische KI ("Victim Agent") im Spiel durch das Erkennen von Schwachstellen so zu beeinträchtigen, dass deren Belohnung (Erfolg, Punkte etc.) möglichst minimiert wird.

Die Strategie der Forscher macht Angriffe auf die Game-Server zu Manipulationszwecken überflüssig.

(Bild: Black Hat USA 20 (Screenshot))

Wie der Titel des Vortrags verrät, gelang dem Team der Angriff auf den gegnerischen Reinforcement Learning-Algorithmus unter anderem im Strategiespiel Starcraft 2, dessen Erwähnung an die Erfolge der DeepMind-KI AlphaStar denken lässt.

Neben StarCraft 2 (Zerg gegen Zerg) nutzten die Entwickler des neuen, "Ellenbogen-orientierteren" Algorithmus vier einfache Spiele auf Basis des Physik-Simulators MuJoCo zu Training-, Analyse- und Vergleichszwecken. Im Gegensatz zum Sammeln, Bauen oder Angreifen in StarCraft kommt es bei letzteren vor allem auf optimierte Bewegungsabläufe an. Der Algorithmus konnte die Gewinnhäufigkeit des Adversarial Agent gegenüber dem Algorithmus vom Berkeley-Team in den meisten Fällen stark erhöhen. Teils entwickelte der Adversarial Agent dabei recht kurios anmutende Bewegungsabläufe, um den Gegner zu blocken.

(Bild: Black Hat USA 20 (Screenshot))

Eine deutliche Ausnahme bildete lediglich das Spiel "Sumo Ants", bei dem es darum geht, sich gegenseitig aus einem Sumo-Ring zu befördern. Hier stieg lediglich die Chance auf ein Unentschieden. Das Problem: Der Lernalgorithmus sorgte hier mitunter dafür, dass der Adversarial Agent absichtlich nahe der Ringgrenze startete, um das Opfer dort hinzulocken – eine Strategie, die nicht immer aufging. Zusätzlich sahen die Forscher aber auch eine Schwäche in den Spielregeln, die ein Untentschieden festlegen, wenn einer der Spieler den Ring verlässt. Die Folge: Der Agent sprang zu Spielbeginn ab und an freiwillig aus dem Ring.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier eine externe Umfrage (Opinary GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Opinary GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Interessierte können die Präsentationsfolien zum Vortrag von der Black Hat-Website herunterladen. Sie nennen Details zum Algorithmus, dem Trainingsablauf sowie mögliche Abwehrmaßnahmen der Spiele-KI in Gestalt gezielten Trainings gegen die neue Angriffsstrategie. In einem Dropbox-Ordner haben die Forscher zusätzlich Demo-Videos bereitgestellt, die das optimierte Verhalten des KI-Agenten nach dem Training in MuJoCo und StarCraft 2 zeigen. Auch der Programmcode soll laut Ankündigung des Teams in Kürze veröffentlicht werden.

(ovw)