Virtuelle Roboterarme trainieren sich gegenseitig schlau

Indem sie beim Spielen andere zu übertreffen versuchen, lernen die Bots von OpenAI Probleme zu lösen, für die sie nicht trainiert wurden.

13

(Bild: Phonlamai Photo/Shutterstock.com)

01.02.2021, 08:07 Uhr

Lesezeit: 3 Min.

MIT Technology Review

Von

Will Douglas Heaven

Virtuelle Roboterarme trainieren sich gegenseitig schlau

Blöcke stapeln, Tisch decken, Schachfiguren arrangieren – ein virtueller Roboterarm hat gelernt, verschiedene Rätsel zu lösen, ohne für diese Aufgaben trainiert worden zu sein. Dazu spielte er gegen einen zweiten Roboterarm, der darauf trainiert war, ihm immer härtere Herausforderungen zu stellen.

Videos by heise

Alice und Bob konkurrieren

Die von OpenAI-Forschern entwickelten identischen Roboterarme – Alice und Bob – lernen, indem sie in einer Simulation ohne menschlichen Input ein Spiel gegeneinander spielen. Die Roboter verwendeten Verstärkungslernen, eine Technik, bei der Künstliche Intelligenzen (KI) durch Ausprobieren trainiert werden, welche Maßnahmen in verschiedenen Situationen zu ergreifen sind, um bestimmte Ziele zu erreichen.

Das Spiel beinhaltet das Bewegen von Objekten auf einer virtuellen Tischplatte. Durch das Anordnen von Objekten auf bestimmte Weise versucht Alice, Bob Rätsel vorzusetzen, die für ihn schwer zu lösen sind. Bob versucht, Alices Rätsel zu lösen und während sie lernen, setzt ihm Alice immer komplexere Rätsel vor und Bob wird immer besser dabei, sie zu lösen.

Trainieren für viele Aufgaben

Deep-Learning-Modelle müssen normalerweise zwischen verschiedenen Aufgaben umgeschult werden. Zum Beispiel verwendet AlphaZero (das ebenfalls lernt, indem es Spiele gegen sich selbst spielt) einen einzigen Algorithmus, um sich selbst das Spielen von Schach, Shogi und Go beizubringen, aber jeweils nur ein Spiel auf einmal. Der schachspielende AlphaZero kann nicht Go spielen und der Go spielende Shogi kann nicht Schach spielen. Der Bau von Maschinen, die wirklich Multitasking können, ist ein großes ungelöstes Problem auf dem Weg zu einer allgemeineren KI.

Ein Problem ist, dass das Trainieren einer KI für Multitasking eine Vielzahl von Beispielen erfordert. OpenAI vermeidet dies, indem es Alice trainiert, die Beispiele für Bob zu generieren, und eine KI zum Training einer anderen verwendet. Alice lernte, Ziele zu setzen, etwa einen Turm aus Blöcken zu bauen, ihn dann hochzuheben und zu balancieren. Bob lernte, Eigenschaften der (virtuellen) Umgebung wie Reibung zu verwenden, um Objekte zu greifen und zu drehen.

KI soll mehr können

Bisher wurde der Ansatz nur in einer Simulation getestet, aber Forscher bei OpenAI und anderswo können Modelle, die in virtuellen Umgebungen trainiert wurden, besser auf eine physische übertragen. Mit einer Simulation können AIs in kurzer Zeit große Datenmengen durchlaufen, bevor sie für die reale Welt optimiert werden.

Das finale Ziel der Forscher besteht darin, einen Roboter zu trainieren, um jede Aufgabe zu lösen, die eine Person von ihr verlangt. Wie das Sprachmodell GPT-3, das Sprache auf vielfältige Weise verwenden kann, sind diese Roboterarme Teil des allgemeinen Bestrebens von OpenAI, eine Multitasking-KI aufzubauen. Die Verwendung einer KI zum Trainieren einer anderen könnte ein wesentlicher Bestandteil davon sein.

(vsz)