KI im Minecraft-Bootcamp: OpenAI trainiert Agenten mit Videos aus dem Internet

Durch Video PreTraining kopiert KI menschliches Verhalten im Videospiel Minecraft. Damit gelingt es Agenten zum ersten Mal, Diamantwerkzeug zu craften.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Künstliche Intelligenz als Hilfswissenschaftler: KI revolutioniert die Forschung

(Bild: Phonlamai Photo/Shutterstock.com)

Lesezeit: 3 Min.

OpenAI testet ein neues Machine-Learning-Modell namens Video PreTraining (VPT), bei dem KI anhand von Videomaterial aus dem Internet Aufgaben erfüllt. Der Testfall: Eine KI soll in einem neuen Spiel bei Minecraft eine Diamantspitzhacke herstellen. OpenAI gibt an, dass geübte, menschliche Spieler für das Erstellen einer Diamantspitzhacke über 20 Minuten und etwa 24 000 Inputs benötigen. Während frühere Agenten in Minecraft Aktionsräume nutzen, verwendet die KI von OpenAI Maus und Tastatur und spielt bei einer Framerate von 20 Hz.

Im Internet gibt es tausende Stunden an Videomaterial für fast alle Tätigkeiten, das Menschen ganz natürlich nutzen, um sich weiterzubilden. Menschen können dabei auf Kontextwissen zurückgreifen: Welche Tastenkombination führt zu welchem Ergebnis auf dem Bildschirm oder in einem Spiel. Machine-Learning-Agenten fehlt dieser Kontext, weswegen KI nicht einfach Videos aus dem Netz scrapen kann, um zu lernen. Open AI trainierte zuerst ein Modell anhand von 2 000 Stunden Videomaterial, für das Crowdworker Video und Input aufzeichneten. Danach ließ man das Modell auf 70 000 Stunden ungelabelte Internet-Videos los.

(Bild: OpenAI)

Minecraft wählte man, da viel Videomaterial verfügbar sei und das Spiel in seiner offenen Welt eine Vielzahl an Aufgaben zulasse, so OpenAI im Blog. Das VPT Foundation Model kopiert das aus den Videos bekannte Verhalten menschlicher Spieler in bestimmten Spielsituationen. Damit trainierte Agenten bewältigen laut Entwickler Aufgaben, die durch klassische, belohnungsbasierte Deep-Learning-Ansätze bisher schwer zu erreichen waren. Neben dem gezielten Einsammeln und Craften baut die KI in bestimmten Situationen so auch die gute alte Nerd Pole aus Erde.

Mit der neuen VPT-Methode verspricht sich OpenAI weitere Fortschritte bei generalisierten Agenten. Erst vor kurzem hat DeepMind in diesem Bereich den Agenten Gato vorgestellt, der auf großen Sprachmodellen basiert. Ob fortgeschrittene Agenten oder Sprach-KI dem Menschen ähnlich ist oder ihn nur imitiert, wurde zuletzt aufgrund des Chatbots LaMDA heiß diskutiert.

Um die Entwicklung des VPT-Ansatzes voranzutreiben, veröffentlichte OpenAI die Daten der Crowdworker, die Minecraft-Umgebung, den Modellcode und die Modellgewichte frei auf GitHub. Das Unternehmen ist auch Partner des diesjährigen MineRL-NeurIPS-Wettbewerbs, bei dem Teilnehmer versuchen können, durch Finetuning des VPT-Modells bestimmte Aufgaben in Minecraft zu lösen. Dafür gibt es einen Preispool von 20 000 US-Dollar, sowie weitere 100 000 US-Dollar, sollte einem Teilnehmer ein besonderer, unvorhergesehener Durchbruch gelingen.

(pst)