Wie autonome Autos dank Chatbots smarter werden

Große Sprachmodelle sind auch in der Robotik das nächste große Ding. Autonome Fahrzeuge lassen sich so bedeutend schneller trainieren. Doch ist das auch sicher?

In Pocket speichern vorlesen Druckansicht 8 Kommentare lesen
Kommentiertes Fahren

Kommentiertes Fahren.

(Bild: Wayve)

Lesezeit: 8 Min.
Von
  • Will Douglas Heaven
Inhaltsverzeichnis

ChatGPT im autonomen Auto? Das britische Start-up Wayve denkt, dass das zusammenpasst – auf eine ganze besondere Art. Die Firma nutzt ein Sprachmodell, mit dem sich ein selbstfahrendes Fahrzeug direkt befragen lässt, warum es eine Fahrentscheidung getroffen hat. Das wiederum soll ein deutlich besseres Training erlauben.

Das Unternehmen hat dazu seine bestehende Selbstfahrsoftware mit einem umfangreichen Sprachmodell kombiniert und so ein Hybridsystem namens LINGO-1 geschaffen. Es synchronisiert Videodaten der Fahrten mit den Aktionen, die das Auto Sekunde für Sekunde ausführt – und kombiniert das mit Beschreibungen in natürlicher Sprache, die erfassen, was das Auto "sieht" beziehungsweise "tut".

Wayve hat in den letzten Jahren eine Reihe von Durchbrüchen im Bereich des autonomen Fahrens erzielt. Im Jahr 2021 konnte es zeigen, dass sich eine auf den Straßen Londons trainierte KI nutzen lässt, um Autos in vier weiteren britischen Städten zu steuern – eine Herausforderung, die in der Regel ein weitgehendes Neutraining erfordert. 2022 nutzte Wayve das gleiche System ein, um mehr als eine Art von Fahrzeug zu lenken – ebenfalls eine Branchenneuheit. Nun wird das Auto zu einem Chatbot.

Bei einer Demonstration spielt Firmenchef Alex Kendall Aufnahmen der Kamera eines seiner Jaguar I-PACE-Testfahrzeuge ab, springt an eine beliebige Stelle im Video und beginnt dann, Fragen einzugeben: "Wie ist das Wetter?" Antwort: "Das Wetter ist bewölkt." Nächste Frage: "Welche Gefahren siehst Du?" Antwort: "Auf der linken Seite befindet sich eine Schule." Frage: "Warum hast Du angehalten?" Antwort: "Weil die Ampel rot ist."

"Wir haben in den letzten Wochen einige bemerkenswerte Dinge erlebt", berichtet Kendall. "Ich wäre nie auf die Idee gekommen, ein Auto so etwas zu fragen, aber schauen Sie sich das an." Dann tippt er die Frage ein, wie viele Stockwerke das Gebäude auf der rechten Seite hat. Das Fahrzeug antwortet: Drei. Es stimmt. "Wir haben das System nie darauf trainiert, so etwas zu tun. Das hat uns wirklich verblüfft. Wir sehen das als einen Durchbruch im Bereich der KI-Verkehrssicherheit an."

"Ich bin beeindruckt von den Fähigkeiten von LINGO-1", meint Pieter Abbeel, Robotikforscher an der University of California, Berkeley, der Mitbegründer des Robotikunternehmens Covariant ist. Er hat Wayves Technik bereits in einer Demonstration begutachtet. Dabei stellte er LINGO-1 verschiedene Was-wäre-wenn-Fragen wie die, was zu tun sei, wenn eine Ampel grün ist. "Fast jedes Mal gab es eine sehr präzise Antwort", sagt er.

Indem Wayve die selbstfahrende Software bei jedem Schritt befragt, hofft das Unternehmen, genauer zu verstehen, warum und wie seine Autos bestimmte Entscheidungen treffen. Die meiste Zeit über fahren die Autos zwar gut. Wenn sie es nicht tun, ist das aber ein Problem – wie Branchenvorreiter wie Cruise und Waymo bei Unfällen festgestellt haben.

Beide Unternehmen haben kleine Flotten von Robotertaxis auf den Straßen einiger US-Städte in Betrieb genommen. Aber die Technologie ist noch lange nicht perfekt. Die Autos von Cruise und Waymo waren in mehrere kleinere Kollisionen verwickelt – Waymo-Fahrzeuge sollen sogar einen Hund getötet haben – und manchmal blockieren sie den Verkehr, wenn das Steuersystem stecken bleibt. Helfer aus San Francisco behaupteten zudem, dass im August zwei Cruise-Fahrzeuge einem Krankenwagen in die Quere kamen, der einen Verletzten transportierte, der später im Krankenhaus starb. (Cruise bestreitet die Darstellung.) Wayve hofft nun, dass die Aufforderung an die eigenen Fahrzeuge, sich selbst zu erklären, wenn sie etwas falsch machen, Fehler schneller aufdecken wird als das langatmige Durchsehen von Videowiedergaben oder das Lesen von Fehlerberichten allein.

"Die wichtigste Herausforderung beim autonomen Fahren ist die Sicherheit", sagt Abbeel. "Mit einem System wie LINGO-1 bekommt man meiner Meinung nach einen viel besseren Eindruck davon, wie gut das System das Fahren in der Welt versteht." Das macht es einfacher, Schwachstellen zu identifizieren, sagt er. Der nächste Schritt besteht nun darin, Autos echte Sprache beizubringen, sagt Kendall. Um LINGO-1 zu trainieren, hat Wayve sein Team von erfahrenen Trainingsfahrern – einige von ihnen ehemalige Fahrlehrer – gebeten, während der Fahrt laut in ein Mikrofon zu erklären, was sie tun und warum. Etwa warum sie schneller oder langsamer fuhren oder welche Gefahren sie wahrnahmen. Das Unternehmen nutzt diese Daten dann zur Feinabstimmung des Modells, indem es ihm Hinweise gibt – ähnlich wie ein Fahrlehrer einen menschlichen Fahrschüler coachen würde. Einem Auto zu sagen, wie es etwas tun soll, anstatt es nur zu zeigen, beschleunige das Training um einiges, sagt Kendall.

Wayve ist nicht das erste Unternehmen, das große Sprachmodelle in der Robotik einsetzt. Andere Unternehmen, darunter Google und Abbeels Firma Covariant, verwenden natürliche Sprache, um Haushalts- oder Industrieroboter zu instruieren oder zu befragen. Die Hybridsysteme haben bereits einen Namen: Visual-Language-Action-Modell, kurz VLAM. Wayve ist jedoch das erste Unternehmen, das VLAMs für das selbstfahrende Fahren einsetzt. "Man sagt oft, ein Bild sagt mehr als tausend Worte, doch beim maschinellen Lernen ist es genau umgekehrt", sagt Kendall.

"Ein paar Worte können hier mehr wert sein als tausend Bilder." Denn eine Aufnahme enthält viele Daten, die redundant sein können. "Wenn Sie Auto fahren, interessieren Sie sich nicht für den Himmel, die Farbe des Autos vor Ihnen oder andere Kleinigkeiten", sagt er. "Worte helfen, sich auf die Informationen zu konzentrieren, die wichtig sind."

"Wayves Ansatz ist definitiv interessant und bislang einzigartig", sagt auch Lerrel Pinto, ein Robotikforscher an der New York University. Ihm gefällt vor allem die Art und Weise, wie LINGO-1 seine Handlungen erklärt. Allerdings ist er auch neugierig, was passiert, wenn das Modell beginnt, zu halluzinieren. "Ich traue großen Sprachmodellen nicht, dass sie sich stets an Fakten halten", sagt er. "Ich bin mir deshalb nicht sicher, ob ich ihnen zutrauen kann, mein Auto zu steuern."

Upol Ehsan, Forscher am Georgia Institute of Technology, der an Systemen arbeitet, KI dazu zu bringen, ihre Entscheidungen Menschen zu erklären, hat ähnliche Vorbehalte. "Große Sprachmodelle sind – und das ist der Fachbegriff – große Bullshitter", sagt Ehsan. "Da hilft nur ein großes, leuchtendes Warnschild, das uns darauf aufmerksam macht, dass die von ihnen generierte Sprache halluziniert sein kann."

Wayve ist sich solcher Einschränkungen durchaus bewusst und arbeitet laut eigenen Angaben daran, LINGO-1 so genau wie möglich zu machen. "Wir sehen die gleichen Herausforderungen wie bei jedem großen Sprachmodell", räumt Kendall ein. "Es ist sicherlich nicht perfekt." Ein Vorteil von LINGO-1 gegenüber nicht-hybriden Modellen sei aber, dass seine Antworten durch die begleitenden Videodaten gestützt sind. Theoretisch sollte dies LINGO-1 wahrheitsgetreuer machen als reine textbasierte Sprachmodell.

Es geht bei der Arbeit sowieso um mehr als nur um Autos, sagt Kendall. "Es gibt doch einen Grund, warum der Mensch die Sprache entwickelt hat: Sie ist der effizienteste Weg, den wir kennen, komplexe Themen zu kommunizieren. Und ich denke, dass dies auch bei intelligenten Maschinen der Fall sein wird." Die Art und Weise, wie wir in Zukunft mit Robotern interagieren werden, werde durch Sprache erfolgen. Roboterforscher Abbeel stimmt dem zu: "Ich glaube, wir stehen kurz vor einer Revolution in der Robotik."

(bsc)