Reinforcement Learning: Q-Learning-Algorithmus im Spiel Frozen Lake
Q-Learning gilt als populärster Algorithmus im Reinforcement Learning. So funktioniert das Lernen der Q-Funktion mit einer Tabelle oder einem neuronalen Netz.
- Gerhard Völkl
In diesem zweiten Teil des Tutorials geht es um den Q-Learning-Algorithmus, der sich gut dazu eignet, Videospiele selbstständig zu erlernen und sogar überdurchschnittlich gut zu spielen. Die Idee ist, dass eine Anwendung die Q-Funktion lernt, die beschreibt, wie hoch die langfristige Belohnung für eine bestimmte Aktion in einer konkreten Spielsituation ist. Damit kann ein Programm die Aktion auswählen, die die höchste Belohnung verspricht. Will man damit rechnen, benötigt der Computer eine Formel der Art
Q(s,a)=?
Ein Agent befindet sich an einer bestimmten Position beispielsweise in einem Labyrinth. Er ist in der Situation s und geht einen Schritt nach vorn, was der Aktion a entspricht. Dadurch löst er einen Schalter aus und ein Goldklumpen fällt von der Decke, die direkte Belohnung r. Was die Aktion a unmittelbar zur Folge hat, ist damit bekannt. Was fehlt, ist die Belohnung, die die nächsten Schritte bringen werden:
Q(s,a)=r+zukĂĽnftige Belohnungen
Beispielsweise kann der Agent im Labyrinth in vier verschiedene Richtungen gehen und damit in vier unterschiedliche Situationen s´ kommen. Die ideale Situation wäre die, die zukünftig die höchste Belohnung einbringt. Dies wiederum beschreibt deren Q-Wert Q(s´,a´). Für die aussichtsreichste Belohnung nimmt man die mit dem maximalen Q-Wert:
Das war die Leseprobe unseres heise-Plus-Artikels "Reinforcement Learning: Q-Learning-Algorithmus im Spiel Frozen Lake". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.