Reinforcement Learning: Q-Learning-Algorithmus im Spiel Frozen Lake

Q-Learning gilt als populärster Algorithmus im Reinforcement Learning. So funktioniert das Lernen der Q-Funktion mit einer Tabelle oder einem neuronalen Netz.

Artikel verschenken

1

26.04.2019, 14:07 Uhr

Lesezeit: 19 Min.

iX Magazin

Von

Gerhard Völkl

Reinforcement Learning: Q-Learning-Algorithmus im Spiel Frozen Lake
Klassisches Q-Learning im Spiel
Forschen mit Epsilon-Greedy
Neuronales Netz statt Annäherung

Artikel in iX 5/2019 lesen

In diesem zweiten Teil des Tutorials geht es um den Q-Learning-Algorithmus, der sich gut dazu eignet, Videospiele selbstständig zu erlernen und sogar überdurchschnittlich gut zu spielen. Die Idee ist, dass eine Anwendung die Q-Funktion lernt, die beschreibt, wie hoch die langfristige Belohnung für eine bestimmte Aktion in einer konkreten Spielsituation ist. Damit kann ein Programm die Aktion auswählen, die die höchste Belohnung verspricht. Will man damit rechnen, benötigt der Computer eine Formel der Art

Q(s,a)=?

Ein Agent befindet sich an einer bestimmten Position beispielsweise in einem Labyrinth. Er ist in der Situation s und geht einen Schritt nach vorn, was der Aktion a entspricht. Dadurch löst er einen Schalter aus und ein Goldklumpen fällt von der Decke, die direkte Belohnung r. Was die Aktion a unmittelbar zur Folge hat, ist damit bekannt. Was fehlt, ist die Belohnung, die die nächsten Schritte bringen werden:

Q(s,a)=r+zukünftige Belohnungen

Beispielsweise kann der Agent im Labyrinth in vier verschiedene Richtungen gehen und damit in vier unterschiedliche Situationen s´ kommen. Die ideale Situation wäre die, die zukünftig die höchste Belohnung einbringt. Dies wiederum beschreibt deren Q-Wert Q(s´,a´). Für die aussichtsreichste Belohnung nimmt man die mit dem maximalen Q-Wert:

Immer mehr Wissen. Das digitale Abo für IT und Technik.

AirPods auskosten: So nutzen Sie alle Funktionen der Apple-Kopfhörer

Apples mobile Audioprodukte klingen toll, sind einfach zu bedienen. Und die Bluetooth-Hörer können noch mehr. 15 Tipps zu AirPods, AirPods Max und AirPods Pro.

Wie das MacBook Neo den Notebookmarkt umkrempelt

Apples MacBook Neo erschließt mit Preisen ab 700 Euro einen neuen Markt. Alle anderen Notebookhersteller bekommen das Zittern.

KeePass-Grundlagen: Passwörter endlich effektiv schützen

Keepass speichert Passwörter sicher und kostenlos. Wir führen Schritt für Schritt durch Installation, Datenbankverwaltung und sinnvolle Sicherheitsstrategien.

DIY-Wärmepumpe: Wie man als Hobby-Handwerker 10.000 Euro spart

Wie ein Hausbesitzer seine Wärmepumpe selbst einbaute, 10.000 Euro sparte und welche Hürden er dabei meistern musste – ein Videobeitrag.

Thunderbird optimieren: E-Mails effizient organisieren und filtern

Mails nerven! Doch sie sind weiterhin zentrales Kommunikationsmittel. Thunderbird hilft, das Mail-Chaos zu bändigen: Wir zeigen, wie das effizienter geht.