Der Schlüssel zu schlaueren Roboter-Kollegen: Mehr Einfachheit

Selbstfahrende Autos könnten mit einem neuen Konzept lernen, das Verhalten menschlicher Fahrer besser vorherzusagen und zu beeinflussen.

7

Mensch und Roboter.

(Bild: Phonlamai Photo / Shutterstock.com)

23.11.2020, 06:00 Uhr

Lesezeit: 5 Min.

MIT Technology Review

Von

Karen Hao

Machen Sie sich einmal all jene Prozesse bewusst, die Sie während einer Autofahrt automatisch ausführen. Sie nehmen unbewusst Informationen über die anderen Fahrzeuge auf und antizipieren, wie sie sich bewegen könnten. Dann überlegen Sie im Handumdrehen, wie Sie auf diese Manöver reagieren würden. Möglicherweise überlegen Sie sogar, wie Sie die anderen Fahrer beeinflussen können, wofür Sie Annahmen darüber machen, was die über Sie denken.

Videos by heise

Wenn sich Roboter nahtlos in unsere Welt integrieren sollen, müssen sie genau dasselbe tun können. Forscher der Stanford University und der Virginia Tech haben nun Mitte November eine Methode vorgeschlagen, mit der Roboter genau solche Verhaltensmodellierungen durchführen können. Dabei erfasst der Roboter die Bewegungen der anderen Agenten nur in groben Zügen. Daraus kann er ihre zukünftigen Aktionen und seine eigenen Reaktionen schnell vorhersagen, ohne durch zu umfangreiche Berechnungen ins Stocken zu geraten.

Bisherige Methoden, die Robotern bei der Zusammenarbeit mit Menschen helfen sollen, fußen oft auf einem entwicklungspsychologischen Konzept namens „theory of mind“ (Theorie des Geistes). Mithilfe dieser als Kind erlernten Fähigkeit können wir uns bei Interaktionen mit anderen in sie hineinfühlen, indem wir ein Verständnis dafür entwickeln, was sie wissen, annehmen und planen. Anhänger dieses Konzepts versuchen Roboter dazu zu bringen, für ihre Kollaborationspartner ein Modell von deren Absichten zu erstellen und das als Grundlage für Handlungsvorhersagen zu benutzen.

Roboter spielt Air-Hockey

Dorsa Sadigh von der Stanford University hält die Methode allerdings für ineffizient. „Wenn Sie über Mensch-Mensch-Interaktionen nachdenken, tun wir das nicht wirklich“, sagt sie. Zumindest nicht immer. „Wenn wir versuchen, einen Tisch zusammen zu verschieben, machen wir keine Absichtsmodellierung.“ Stattdessen verlassen sich die beiden Personen auf einfache Signale wie die Krafteinwirkung, die sie vom anderen beim Drücken oder Ziehen des Tisches spüren: „Ich denke, was wirklich passiert, ist, dass Menschen bei gemeinsamen Aufgaben etwas viel Einfacheres im Auge behalten“, sagt Sadigh.

Mit diesem Konzept kann ein Roboter sehr einfache Beschreibungen der Aktionen seiner Mit-Agenten speichern. In einem Air-Hockey-Spiel kann er beispielsweise ihre Bewegungen mit nur einem Wort beschreiben: „rechts“, „links“ oder „mittig“. Mit diesen Daten lassen sich dann zwei separate Algorithmen trainieren: einer für maschinelles Lernen, der vorhersagt, wohin sich der andere Agent bewegen wird, und einer für „Reinforcement Learning“, um zu bestimmen, wie er selbst reagieren soll. Der zweite Algorithmus verfolgt auch, wie der andere Agent auf der Grundlage der eigenen Reaktion die Richtung ändert, und lernt dabei, die Aktionen des anderen zu beeinflussen.

Der Schlüssel ist die leichtgewichtige Art der Trainingsdaten, die es dem Roboter ermöglicht, all dieses parallele Lernen bei laufendem Betrieb durchzuführen. Ein traditionellerer Ansatz würde die Koordinaten für den gesamten Bewegungspfad des Gegners speichern, nicht nur für dessen übergeordnete Richtung. Es mag zwar nicht intuitiv erscheinen, dass weniger mehr ist. Aber es lohnt sich, nochmal an Sadighs Theorie über die menschliche Interaktion zu denken. Auch wir modellieren die Menschen um uns herum nur in groben Zügen.

Überbrückung der Lücke

Die Forscher testeten die neue Idee in einer Simulation für verschiedene Anwendungen wie ein selbstfahrendes Auto und in der realen Welt beim Roboter-Air-Hockey. Bei jedem Versuch übertraf die neue Technik frühere Methoden darin, den Robotern beizubringen, sich an die anderen Agenten anzupassen. Der Roboter lernte auch sehr effektiv, seine Umgebung zu beeinflussen.

Trotzdem gibt es noch einige Punkte, die weitere Forschungsarbeiten lösen müssen. Bisher geht das Konzept beispielsweise davon aus, dass jede Interaktion, an der der Roboter beteiligt ist, endlich ist, sagt Jakob Foerster von der Universität von Toronto, der nicht an der Arbeit beteiligt war. In der Selbstfahrsimulation gingen die Forscher etwa davon aus, dass das Roboterauto während jeder Trainingsrunde nur eine einzige klar begrenzte Interaktion mit einem anderen Auto hat. Aber so funktioniert Fahren natürlich nicht. Interaktionen sind oft kontinuierlich und erfordern, dass ein selbstfahrendes Auto innerhalb jeder Interaktion lernt und sein Verhalten anpasst, nicht nur zwischen ihnen.

Eine weitere Herausforderung besteht Sadigh zufolge darin, dass der neue Ansatz das Wissen voraussetzt, wie das Verhalten eines Mitarbeiters am besten beschrieben werden kann. Auch die Forscher mussten im Air-Hockey-Spiel passende Bezeichnungen wie „rechts“, „links“ und „Mitte“ finden, damit der Roboter die Aktionen seines Gegners beschreiben konnte. Solche Bezeichnungen werden in komplizierteren Interaktionen aber nicht immer so offensichtlich sein. Dennoch hält Foerster die Ergebnisse für vielversprechend. „Die Überbrückung der Lücke zwischen Multi-Agent-Lernen und Mensch-KI-Interaktion ist ein sehr wichtiger Weg für die zukünftige Forschung“, sagt er. „Ich bin sehr gespannt, wann diese Dinge zusammengefügt werden.“

(vsz)