Virtuelle Roboterarme trainieren sich gegenseitig schlau

Indem sie beim Spielen andere zu übertreffen versuchen, lernen die Bots von OpenAI Probleme zu lösen, für die sie nicht trainiert wurden.

In Pocket speichern vorlesen Druckansicht 13 Kommentare lesen

(Bild: Phonlamai Photo/Shutterstock.com)

Lesezeit: 3 Min.
Von
  • Will Douglas Heaven
Inhaltsverzeichnis

Blöcke stapeln, Tisch decken, Schachfiguren arrangieren – ein virtueller Roboterarm hat gelernt, verschiedene Rätsel zu lösen, ohne für diese Aufgaben trainiert worden zu sein. Dazu spielte er gegen einen zweiten Roboterarm, der darauf trainiert war, ihm immer härtere Herausforderungen zu stellen.

Die von OpenAI-Forschern entwickelten identischen Roboterarme – Alice und Bob – lernen, indem sie in einer Simulation ohne menschlichen Input ein Spiel gegeneinander spielen. Die Roboter verwendeten Verstärkungslernen, eine Technik, bei der Künstliche Intelligenzen (KI) durch Ausprobieren trainiert werden, welche Maßnahmen in verschiedenen Situationen zu ergreifen sind, um bestimmte Ziele zu erreichen.

Das Spiel beinhaltet das Bewegen von Objekten auf einer virtuellen Tischplatte. Durch das Anordnen von Objekten auf bestimmte Weise versucht Alice, Bob Rätsel vorzusetzen, die für ihn schwer zu lösen sind. Bob versucht, Alices Rätsel zu lösen und während sie lernen, setzt ihm Alice immer komplexere Rätsel vor und Bob wird immer besser dabei, sie zu lösen.

Deep-Learning-Modelle müssen normalerweise zwischen verschiedenen Aufgaben umgeschult werden. Zum Beispiel verwendet AlphaZero (das ebenfalls lernt, indem es Spiele gegen sich selbst spielt) einen einzigen Algorithmus, um sich selbst das Spielen von Schach, Shogi und Go beizubringen, aber jeweils nur ein Spiel auf einmal. Der schachspielende AlphaZero kann nicht Go spielen und der Go spielende Shogi kann nicht Schach spielen. Der Bau von Maschinen, die wirklich Multitasking können, ist ein großes ungelöstes Problem auf dem Weg zu einer allgemeineren KI.

Ein Problem ist, dass das Trainieren einer KI für Multitasking eine Vielzahl von Beispielen erfordert. OpenAI vermeidet dies, indem es Alice trainiert, die Beispiele für Bob zu generieren, und eine KI zum Training einer anderen verwendet. Alice lernte, Ziele zu setzen, etwa einen Turm aus Blöcken zu bauen, ihn dann hochzuheben und zu balancieren. Bob lernte, Eigenschaften der (virtuellen) Umgebung wie Reibung zu verwenden, um Objekte zu greifen und zu drehen.

Bisher wurde der Ansatz nur in einer Simulation getestet, aber Forscher bei OpenAI und anderswo können Modelle, die in virtuellen Umgebungen trainiert wurden, besser auf eine physische übertragen. Mit einer Simulation können AIs in kurzer Zeit große Datenmengen durchlaufen, bevor sie für die reale Welt optimiert werden.

Das finale Ziel der Forscher besteht darin, einen Roboter zu trainieren, um jede Aufgabe zu lösen, die eine Person von ihr verlangt. Wie das Sprachmodell GPT-3, das Sprache auf vielfältige Weise verwenden kann, sind diese Roboterarme Teil des allgemeinen Bestrebens von OpenAI, eine Multitasking-KI aufzubauen. Die Verwendung einer KI zum Trainieren einer anderen könnte ein wesentlicher Bestandteil davon sein.

(vsz)