Generative KI soll für autonome Autos bis zu 10 Sekunden in die Zukunft schauen

Die Firma Waabi hat ein neues Modell entwickelt, das anhand von Lidar-Daten vorhersagen kann, wie sich Fußgänger, Lastwagen und Radfahrer bewegen.

In Pocket speichern vorlesen Druckansicht 50 Kommentare lesen

(Bild: Suwin / Shutterstock.com)

Lesezeit: 6 Min.
Von
  • James O'Donnell

Waabi, ein Start-up, das sich auf autonomes Fahren spezialisiert hat, will mit einem neuartigen KI-Modell die nächsten Bewegungen anderer Verkehrsteilnehmer vorhersagen. Dabei wird nicht nur maschinelles Lernen zum Einsatz kommen, sondern generative KI – ein Novum in diesem Segment. Das System namens Copilot4D wurde auf der Grundlage von Daten aus LIDAR-Sensoren trainiert, die mithilfe von Licht die Entfernung zu Objekten messen. Gibt man dem Modell eine Situation vor – z. B. einen Fahrer, der rücksichtslos mit hoher Geschwindigkeit auf eine Autobahn auffährt –, sagt es voraus, wie sich andere Fahrzeuge in der Umgebung bewegen werden. Heraus kommen soll eine LIDAR-Darstellung, die 5 bis 10 Sekunden in die Zukunft schaut, in diesem Fall beispielsweise eine Massenkarambolage.

Bislang steht eine erste Version von Copilot4D zur Verfügung. Waabi arbeitet laut Chefin Raquel Urtasun aber bereits an genaueren Systemen, die in einer Testflotte autonomer Trucks in Texas eingesetzt werden sollen, bei denen die Fahrsoftware dann entscheidet, wie sie auf bestimmte Situationen reagieren muss – ein integrierter Interpreter, sozusagen.

Das autonome Fahren setzt seit langem auf maschinelles Lernen zur Planung von Routen und zur Erkennung von Objekten. Generative KI-Modelle, die Daten aus der Umgebung verwenden, um daraus dann Vorhersagen zu erstellen, sind ein neues Niveau. Sie könnte Autonomie auf eine ganz neue Stufe bringen, hoffen Optimisten. Wayve, ein Konkurrent von Waabi, hat im vergangenen Jahr bereits ein vergleichbares Modell veröffentlicht, das auf der Grundlage der von seinen Fahrzeugen gesammelten Fahrfilme trainiert wurde. Waabi funktioniert ähnlich wie Bild- oder Videogeneratoren wie DALL-E und Sora von OpenAI, nutzt aber keine Kameradaten: Es nimmt Punktwolken aus LIDAR-Sensoren, die eine 3D-Karte der Umgebung des Fahrzeugs visualisieren, und zerlegt sie in Teile, ähnlich wie Bildgeneratoren Fotos in Pixel zerlegen. Auf der Grundlage seiner Trainingsdaten sagt Copilot4D dann voraus, wie sich die Punktwolke aus den LIDAR-Daten bewegen wird.

Waabi ist eines der wenigen Unternehmen im Bereich des autonomen Fahrens – darunter die Konkurrenten Wayve und Ghost –, die ihren Ansatz als "AI-first" bezeichnen. Für Urtasun bedeutet das, ein System zu entwickeln, das aus Daten lernt, anstatt dass ihm Reaktionen auf bestimmte Situationen beigebracht werden müssen. Die Start-ups setzen also darauf, dass ihre Methoden weniger Stunden für Straßentests mit selbstfahrenden Autos erfordern. Unumstritten ist das nicht – so kam es mehrfach in der Vergangenheit zu Unfällen, beispielsweise im Oktober 2023, als ein Cruise-Robotertaxi in San Francisco einen Fußgänger mitriss.

Waabi unterscheidet sich von seinen Konkurrenten wie erwähnt dadurch, dass es ein generatives Modell für die Radartechnik LIDAR ("light detection and ranging") und nicht für Kameras entwickelt. "Wenn man Level-4-Autonomie erreichen will, ist LIDAR ein Muss", sagt Urtasun und meint damit die Automatisierungsstufe, bei der das Auto nicht mehr die Aufmerksamkeit eines Menschen benötigen soll, um sicher zu fahren. Kameras zeigten gut, was das Auto sieht, aber sie sind nicht gut genug darin, Entfernungen zu messen oder die Geometrie der Umgebung des Autos zu verstehen, sagt sie.

Obwohl das Modell von Waabi Videos erzeugen kann, die zeigen, was ein Auto durch seine LIDAR-Sensoren sieht, werden diese Videos nicht für das Training im Fahrsimulator des Unternehmens verwendet, mit dem es sein Fahrmodell entwickelt und testet. Damit soll sichergestellt werden, dass Halluzinationen, die durch Copilot4D durchaus noch entstehen, nicht in den Simulatorbetrieb übertragen werden. Die zugrundeliegende Technologie sei nicht neu, sagt Bernard Adam Lange, Doktorand in Stanford, der ähnliche Modelle erstellt und erforscht hat. Es sei aber das erste Mal, dass ein generatives LIDAR-Modell das Labor verlässt und für die kommerzielle Nutzung vorbereitet wird.

Ein solches Modell würde, hoffen Lange und andere, das "Gehirn" eines autonomen Fahrzeugs in die Lage versetzen, schneller und genauer zu "denken". "Es ist ein Maßstab, der transformativ ist", glaubt er. "Die Hoffnung ist, dass diese Modelle für nachgelagerte Aufgaben wie die Erkennung von Objekten plus die Vorhersage, wohin sich Menschen oder Dinge als Nächstes bewegen, genutzt werden können."

Copilot4D kann bislang nur eingeschränkt in die Zukunft blicken. Hinzu kommt: Modelle zur Bewegungsvorhersage verschlechtern sich im Allgemeinen, je umfangreicher sie sein sollen. Laut Urtasun reicht für die meisten Fahrentscheidungen, was 5 bis 10 Sekunden in der Zukunft passiert. Die aktuellen Waabi-Benchmarktests beruhen auf 3-Sekunden-Vorhersagen. Chris Gerdes, Co-Direktor des Stanford Center for Automotive Research, ist der Meinung, dass dieser Maßstab entscheidend dafür sein wird, wie nützlich das Modell für die Entscheidungsfindung ist. "Wenn die 5-Sekunden-Vorhersagen solide sind, aber die 10-Sekunden-Vorhersagen gerade noch brauchbar wären, gibt es eine Reihe von Situationen, in denen das Modell auf der Straße nicht ausreicht", sagt er.

Das neue Modell wirft zudem eine Frage auf, die in der Welt der generativen KI immer wieder auftaucht: Sollte es quelloffen sein? Die Freigabe von Copilot4D würde es Forschern an Hochschulen, die nur schwer Zugang zu großen Datensätzen haben, ermöglichen, einen Blick unter die Haube zu werfen, die Sicherheit solcher Systeme unabhängig zu bewerten und das Feld möglicherweise voranzubringen. Das Gleiche gilt auch für die Konkurrenten von Waabi. Bislang gibt es hier nur Paper, die jedoch nicht tief genug in die Materie einsteigen, nachbauen ist so nicht möglich.

"Wir wollen, dass auch die Wissenschaft ein Mitspracherecht bei der Zukunft des selbstfahrenden Autos hat", sagt Urtasun und fügt hinzu, dass Open-Source-Modelle vertrauenswürdiger sind. "Aber wir müssen auch ein bisschen vorsichtig sein, wenn wir unsere Technologie entwickeln, damit wir nicht alles unseren Konkurrenten preisgeben."

(jle)