Gran Turismo: Wie eine Software die besten Gamer beim Autorennen schlägt

Die mit Verstärkungslernen trainierte Software GT Sophy fährt menschlichen Spielern nicht nur in Solo-Runden davon.

In Pocket speichern vorlesen Druckansicht 131 Kommentare lesen

(Bild: Screenshot "The Making of Gran Turismo Sophy")

Lesezeit: 5 Min.

KI-Forscher bei Sony haben eine Software entwickelt, die die besten menschlichen Spieler im Rennspiel Gran Turismo geschlagen hat. Das mit Verstärkungslernen trainierte tiefe neuronale Netz war erstmals nicht nur in der Lage, menschlichen Spielern in Solo-Runden davonzufahren, sondern schlug sie auch in direkten Rennen.

Dass hinter dieser Software mehr steckt als nur eine besondere Herausforderung für Rennspiel-Liebhaber, lässt sich auch daran ablesen, dass das Paper mit den technischen Einzelheiten es auf die Titelseite der renommierten Fachzeitschrift Nature schaffte.

Die Software sei vor allem aus einem Grund bemerkenswert, schreibt KI-Forscher J. Christian Gerdes von der Stanford University in einem begleitenden "News and Views"-Artikel: Erstmals sei es den Entwicklern von GT Sophy gelungen, die Planung der Wegstrecke komplett auf ein neuronales Netz zu ĂĽbertragen.

"Die Planung von Wegstrecken ist nach wie vor eine Domäne der Physik und der Optimierung", schreibt Gerdes. Selbst der Fahrzeughersteller Tesla, "der neuronale Netze als Kernstück des autonomen Fahrens einsetzt" greife auf einen optimierungsbasierten Trajektorienplaner zurück. Der plant zehn Sekunden in die Zukunft, indem er mehrere, verschiedene Szenarien für sich und die anderen Verkehrsteilnehmer durchspielt, um dann den Weg zu nehmen, der am besten das vorgegebene Ziel erreicht, und gleichzeitig am sichersten und komfortabelsten ist – also mit möglichst wenigen abrupten Beschleunigungen fährt.

GT Sophy kommt nach Angaben der Entwickler nun erstmals ohne einen speziellen Optimierer aus. Der virtuelle Rennwagen wird von einem neuronalen Netz gesteuert, das mit Hilfe einer speziellen Variante von Reinforcement Learning (RL, Verstärkungslernen) trainiert wurde.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes Video (Kaltura Inc.) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Kaltura Inc.) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Die grundlegende Idee an sich ist nicht neu: Das Training mit RL soll einen Software-Agenten in die Lage versetzten, sich in einer beliebigen Situation so zu verhalten, dass er sein Ziel möglichst stringent verfolgt – und zwar ohne alle möglichen Aktionen für alle möglichen Situationen explizit aufzuschreiben.

Das funktioniert mit Trial und Error: Der Agent kann den Zustand seiner virtuellen Welt wahrnehmen und handeln, das heißt, den Zustand der Welt verändern. Er probiert eine Aktion, ist sie zielführend, wird sie beim nächsten Mal mit einer höheren Wahrscheinlichkeit ausgewählt. Ist sie nicht zielführend, wird ihre Auswahlwahrscheinlichkeit verringert. Nach hinreichend vielen Versuchen lernt der Agent eine optimale "Policy" – ein Verfahren, das für einen Zustand der Welt die beste nächste Aktion empfiehlt.

Der Teufel steckt jedoch auch hier wieder im Detail. Es gibt für verschiedene Anwendungsfälle mittlerweile einen ganzen Zoo von RL-Algorithmen. Die Sony-Entwickler verwendeten nun eine modifizierte Variante der so genannten Soft Actor Critique – ein relativ neuer Ansatz, bei dem die Entropie der so genannten Policy maximiert wird, und der sich besonders gut für Software eignen soll, die nicht in Simulationen, sondern realen Umgebungen eingesetzt werden soll – beispielsweise in der Robotik.

Weil GT nur auf PlayStations läuft, kommuniziert die GT-Sophy-Software von einem separaten Computer aus über das Netzwerk-Protokoll TCP mit dem Spiel. Der Agent kann beschleunigen oder bremsen und nach rechts oder links lenken, und zwar mit maximal zehn Aktionen pro Sekunde, was nach Einschätzung der Entwickler "keinen besonderen Vorteil gegenüber professionellen Spielern" ergibt. Die Wirkung der Aktionen werden direkt über die Physik Engine des Spieles ermittelt. Das heißt, auch GT Sophy kann nicht stärker bremsen als ein Mensch. Eine Instanz von GT Sophy kann bis zu 20 Autos auf einer PlayStation steuern.

Um nicht nur zu lernen, wie man die Strecken in optimaler Zeit fährt, sondern auch Strategie und Taktik zu trainieren, wurde die Software in eigens dafür geschaffene Trainingsszenarien geschickt. Die Einhaltung der Regeln beziehungsweise eine faire, sportliche Fahrweise der Software erzielten die Entwickler, indem sie "unnötige Kontakte" zwischen den Wagen während des Trainings mit zusätzlichem Abzug bei der Bewertung versahen.

Das Ergebnis sei beeindruckend, schreibt Gerdes: "Dennoch gibt es noch einige Herausforderungen beim Wechsel von der Konsole auf die Strecke. Zum Beispiel hat GT Sophy noch nicht gelernt, dass es manchmal besser ist, dem vorausfahrenden Auto zu folgen, um Zeit aufzuholen, anstatt sich in jeder Kurve zu duellieren." Um nicht nur im Spiel, sondern auch auf der Straße zu funktionieren, müsste der Algorithmus zudem auch lernen, dass sich der physikalische Zustand der Rennwagen von Runde zu Runde ändert, weil zum Beispiel der Abrieb der Reifen zunimmt – von Änderungen des Wetters gar nicht zu reden. "Es ist einfach, Simulationen durchzuführen, aber kein existierendes Rennauto hat genügend Runden absolviert, um GT Sophy in seiner derzeitigen Form zu trainieren", schreibt er. Das ist wahrscheinlich nur eine Frage der Zeit. Schließlich fahren autonome Autos bereits im Roborace. (wst)