Lernumgebungen, um KI-Agenten zu trainieren

Socken kaufen neu gelernt: KI-Agenten brauchen andere Trainings als statische Datensets. Im Silicon Valley wird daran gearbeitet.

vorlesen Druckansicht
Hologreamm eines Hirns vor Laptop

(Bild: Peshkova / shutterstock.com)

Lesezeit: 3 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Reinforcement Learning (RL) Environments – das sollen neuartige Trainingsumgebungen für KI-Agenten sein. Sowohl die großen KI-Unternehmen als auch zahlreiche Start-ups versuchen gerade, solche Umgebungen zu erschaffen. KI-Agenten mit bisherigen Datensets zu trainieren, scheint einen Teil der Limitationen ihrer Fähigkeiten zu begründen.

Grundsätzlich können KI-Agenten bereits andere Dienste benutzen. Je nach Agent und Umfang kann das unterschiedlich ausfallen. Agenten können etwa innerhalb einer Arbeitsumgebung handeln. Dort kann ein KI-Agent automatisch Meetings oder in der eigenen Abwesenheit besprochene Themen zusammenfassen – wie es beispielsweise der AI Companion von Zoom oder der Copilot von Microsoft macht. Es gibt aber auch KI-Agenten wie OpenAIs ChatGPT Agent oder Googles Gemini Agent, die sich frei im Internet bewegen können und einen Tisch im Restaurant reservieren oder ein Paar Socken kaufen. Doch bisher funktioniert das alles noch nicht absolut sicher. Selbst OpenAI CEO Sam Altman hat bereits gewarnt. KI-Agenten können nicht nur scheitern, sie können auch angegriffen werden.

Um die Agenten nun also robuster zu machen, könnte das Training in einem RL Environment helfen. Das gleicht etwa einem Browser, ist aber eine Art Lernumgebung ohne Zugang zum Internet. Reinforcement Learning, also bestärkendes Lernen, ist auch beim klassischen Training von Großen Sprachmodellen inzwischen fester Bestandteil. Dahinter steckt das Bestreben nach Belohnung: KI-Modelle werden daraufhin trainiert, belohnt zu werden – dafür müssen sie das Richtige tun und lernen daraus. Feedback wird von außen gegeben.

Im besten Fall heißt das, ein KI-Agent wird im neuen RL Environment dafür gelobt, die richtige Anzahl und Farbe Socken gekauft zu haben. Das ist jedoch nicht selbstverständlich. Bisher kann es ebenso gut sein, dass ein KI-Agent blaue statt schwarze und ein Doppelpack Socken kaufen würde. Dafür bekäme er kein Lob. Dabei ist auch wichtig, dass ganz genau klar ist, wo ein KI-Agent falsch abgebogen ist. Nur dann kann aus dem falschen Verhalten gelernt werden.

Videos by heise

Grundsätzlich sind solche virtuellen Umgebungen keine neue Idee. Auch AlphaGo von Google DeepMind hat in einer solchen das Brettspiel gelernt, schreibt TechCrunch. Das hat jedoch einen deutlich eingeschränkteren Umfang als etwa das Internet.

Zu den Unternehmen, die den Zug auf keinen Fall verpassen wollen, gehören auch beispielsweise Scale AI, Mercor und Surge. Sie kommen aus dem Bereich der Aufbereitung von Datensets für das KI-Training. An Scale AI ist Meta beteiligt. Es gibt aber auch neue Startups wie etwa Prime Intellect, die bereits einen RL Environment Hub veröffentlicht haben, eine Art Hugging Face für die Umgebungen.

Auch wenn KI-Agenten mit dieser Methode lernen können, ihre vorgegebenen Ziele besser zu erreichen: Das bestärkende Lernen kann auch dazu führen, dass die KI-Agenten eher so tun, als hätten sie ihr Ziel erreicht, obwohl es gar nicht stimmt. Sie könnten also eher schummeln, um belohnt zu werden.

(emw)