Machine Learning: Google Dopamine 2.0 wird flexibler

Das Framework für Reinforcement Learning ist in Version 2.0 nicht mehr auf die Arcade Learning Environment begrenzt.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Machine Learning: Google Dopamine 2.0 wird flexibler
Lesezeit: 2 Min.
Von
  • Rainald Menge-Sonnentag

Das Google-Research-Team hat Version 2.0 des Reinforcement-Learning-Frameworks Dopamine veröffentlicht. Der Versionssprung bringt keine Änderungen der grundsätzlichen Funktionsweise mit sich, erweitert aber die Schnittstelle nach außen: Während der Vorgänger auf die Arcade Learning Environment (ALE) ausgelegt war, können Entwickler nun auch andere Umgebungen verwenden.

Dopamine 2.0 lässt sich mit sogenannten Discrete-Domain-Gym-Umgebungen nutzen. Damit sind solche gemeint, die diskontinuierliche Zustände oder Aktionen haben. Damit sollen sich vor allem einfachere Übungen als die Videospiele in ALE umsetzen lassen. Das Team hat als Beispiele Standardkonfigurationen für die OpenAI-Gyms CartPole und Acrobot veröffentlicht. Auf der Google-Research-Site Colaboratory findet sich ein interaktives Jupyter Notebook zu CartPole.

Die Aufgaben in Acrobot und CartPole im OpenAI Gym sind deutlich einfacher als die Videospiele auf ALE.

(Bild: OpenAI)

Dopamine trägt nicht zufällig den Namen des Glückshormons, da sich das Framework dem Reinforcement Learning (RL) widmet, das sich als bestärkendes Lernen übersetzen lässt. RL funktioniert nach dem Belohnungsprinzip, wobei der Softwareagent selbstständig versucht, die Belohnung zu erkennen und sie zu maximieren. Der typische Einsatzbereich sind derzeit vor allem Videospiele, bei denen die Ergebnisse von Menschen leicht überprüfbar sind. Die Belohnung bei den klassischen Arcade-Spielen ist üblicherweise die Punktzahl.

Die Arcade Learning Environment, auf die sich das im August 2018 veröffentlichte Dopamine 1 konzentrierte, bietet eine Schnittstelle zu 55 Atari-2600-Spielen mit zugehörigen Benchmarks für die Softwareagenten. Das im Frühjahr 2016 eröffnete OpenAI Gym liefert ein Toolkit zum Bewerten von RL-Methoden mit unterschiedlichen Aufgaben. Oft sind die Umgebungen deutlich simpler als die Videospiele bei ALE. Bei CartPole geht es beispielsweise darum, einen Stab auf einem Fahrzeug zu balancieren, und das Spielchen bietet nur die Steuerung nach links und rechts. Laut dem Dopamine-Team dauert das Training eines Softwareagenten dafür einige Minuten, während es für ein typisches Atari-2600-Spiel etwa fünf Tage auf einer Standard-GPU in Anspruch nimmt.

Weitere Details zu Dopamine 2.0 lassen sich dem Open-Source-Blog bei Google entnehmen. Dopamine ist unter der Apache-2.0-Lizenz auf GitHub zu finden.

Mehr Infos

Viele bringen Reinforcement Learning vor allem mit Videospielen in Verbindung, aber es gibt durchaus Anwendungen im industriellen Umfeld. Die von heise Developer, iX und dem dpunkt.verlag veranstaltete Konferenz Minds Mastering Machines hat zwei RL-Praxisvorträge im Programm.

(rme)