Jenga-Peitschen: KI-Roboter schlägt Jenga-Blöcke zu 100 Prozent aus Turm

Ein Roboter schlägt mit einer Peitsche einen Block mit höherer Erfolgsquote aus einem Jenga-Turm als ein Mensch – dank einer erweiterten KI-Trainingsmethode.

vorlesen Druckansicht 21 Kommentare lesen
Roboter schlägt einen Jenga-Block aus einem Turm.

Ein Roboter schlägt mit einem präzisen Schlag einen Jenga-Block aus einem Turm.

(Bild: UC Berkeley (Screenshot))

Lesezeit: 3 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Wissenschaftler der University of California Berkeley (UC Berkeley) haben einen Roboter so trainiert, dass er selbstständig einzelne Jenga-Blöcke mit einer Peitsche aus einem Turm herausschlagen kann, ohne dass der Turm instabil wird und zusammenfällt. Die Forscher kombinierten beim Training der Künstlichen Intelligenz des Roboters Methoden des verstärkenden Lernens (Reinforcement Learning) mit Korrekturen durch einen Menschen.

Das Jenga-Peitschen ist ein beliebter Sport, der auch wettbewerbsmäßig durchgeführt wird. Dabei werden mit einer Peitsche einzelne Jenga-Blöcke aus einem aufgestapelten Turm herausgeschlagen. Der Turm darf nach dem Schlag nicht in sich zusammenfallen. Dazu müssen die Sportler über ein gutes Auge, hervorragende Reflexe und eine präzise Handkoordination verfügen. Je nach Erfahrung und Können variiert die Erfolgsquote deutlich.

Die Forscher der UC Berkeley wollten dies von einem Roboter erledigen lassen. Das Ziel: Der Roboter soll die Aufgabe mit einer Erfolgsquote von 100 Prozent abschließen können. In dem technischen Bericht "Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning" beschreiben die Wissenschaftler die KI-Methode, mit der sie den Roboter trainiert haben.

Demnach setzten die Forscher zunächst Reinforcement Learning ein, um die Roboter-KI zu trainieren. Eine Kamera dokumentierte die erfolgreichen und erfolglosen Versuche. Die erfolgreichen Versuche wurde in eine KI-Datenbank aufgenommen, die erfolglosen verworfen. Die Wissenschaftler verzichteten dabei bewusst auf ein Training in einer virtuellen Simulation. Sie konzentrierten sich dagegen ausschließlich auf ein Training in der realen Welt. Der Grund: Die Modellierung der Peitschenschläge erwies sich als sehr komplex. Entsprechend ist es weniger effizient, den Roboter nur in einer Simulation zu trainieren.

Videos by heise

Das Training mittels verstärkenden Lernens reichte den Wissenschaftlern allerdings nicht aus. Um schneller Erfolge zu erzielen, bauten sie einen menschlichen Korrekturfaktor ein. Dazu nutzten sie ein Eingabegerät, das die Bewegung des Roboters manuell präzise steuern kann. Diese Korrekturinformationen wurden ebenfalls in die Datenbank aufgenommen, sofern sie sich als erfolgreich erwiesen hatten. Zunächst musste ein Mensch immer wieder eingreifen und den Roboter korrigieren. Ab etwa 30 Prozent der Versuche, konnte dem Roboter nach und nach weniger Aufmerksamkeit geschenkt werden.

Am Ende des Trainings testeten die Wissenschaftler den Roboter. Er schaffte es zu 100 Prozent, mit einer Peitsche einzelne Blöcke aus einem Jenga-Turm zu schlagen, ohne dass der Turm einstürzte. Jianlan Luo, einer der beteiligten Forscher des Projekts, sieht den Roboter gegenüber einem menschlichen Jenga-Peitscher im Vorteil – selbst, wenn es sich um einen erfahrenen Spieler handeln sollte. Denn der Roboter hat im Vergleich zu einem Menschen keine Muskeln, die mit der Zeit ermüden könnten. Ein Roboter führt deshalb jeden Schlag mit der gleichen Präzision durch, wie ein Video zeigt.

Die Wissenschaftler probierten ihre Trainingsmethode an weiteren Aufgaben für einen Roboter aus – unter anderem den Zusammenbau eines Regals, das Bestücken einer Platine und das Wenden eines Spiegeleis in einer Pfanne. Die Forscher verglichen dabei ihre kombinierte Trainingsmethode aus Reinforcement Learning und menschlichem Eingreifen mit einer gängigen Methode des Verhaltensklonens. Bei beiden Methoden wurde der Roboter mit der gleichen Menge an Demonstrationsdaten trainiert. Im Ergebnis machte die kombinierte Trainingsmethode den Roboter aber schneller und präziser.

(olb)