Meta veröffentlicht V-Jepa 2 – ein KI-Weltmodell

V-Jepa 2 ist ein KI-Weltmodell, das anders als Große Sprachmodelle funktioniert – es lernt selbstständig. Meta sieht darin die Zukunft.

vorlesen Druckansicht 33 Kommentare lesen
Yann LeCun von Metas FAIR-Team.

Yann LeCun von Metas FAIR-Team im Video des Blogbeitrags.

(Bild: Screenshot Blogbeitrag)

Lesezeit: 5 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Meta arbeitet wie alle großen KI-Unternehmen an einer AGI (Artificial General Intelligence). Metas KI-Wissenschafts-Team FAIR aus Paris entwickelt aber auch einen anderen Ansatz: AMI. Advanced Machine Intelligence ist das Ziel von Chef-Wissenschaftler und Turing-Preisträger Yann LeCun. Nun hat Meta mit V-Jepa 2 ein neues Weltmodell vorgestellt, das ein nächster Schritt in Richtung AMI und nützlicher KI-Agenten sein soll. V-Jepa steht für Video Joint Embedding Predictive Architecture.

V-Jepa 2 soll sich Wissen aneignen können, wie es auch Menschen tun. Das wiederum soll dabei helfen, dass sich die KI-Modelle an eine unvorhersehbare Umgebung anpassen können. V-Jepa ist auf Videodaten trainiert und bereits vergangenes Jahr vorgestellt worden. Darauf aufbauend bekommt V-Jepa 2 nun laut Meta die "Fähigkeit zur Handlungsvorhersage und Weltmodellierung". Dank des Modells sollen etwa Roboter besser mit unbekannten Objekten umgehen und die Umgebung besser verstehen.

Videos by heise

Trainiert wurde V-Jepa 2 mittels selbst überwachtem Lernen auf Videodaten. Dadurch ist es nicht nötig, dass die Daten von Menschen annotiert werden. Das heißt, die Daten müssen nicht aufwendig aufbereitet werden. Meta erklärt im Blogbeitrag, das Training erfolge dann in zwei Phasen: zunächst einem handlungsunabhängigen Vortraining und dann einem handlungsbasierten Feintuning. Das Modell hat 1,2 Milliarden Parameter und steht öffentlich zur Verfügung. Mit V-Jepa 2 können Roboter laut Meta bereits jetzt bei Zero-Shot-Planung in bislang unbekannten Umgebungen für Objekte eingesetzt werden, die während des Trainings nicht genutzt wurden. Greifen, Aufnehmen, woanders ablegen sei kein Problem.

Meta arbeitet im Pariser Büro bereits mit einem Spot von Boston Dynamics, der Gegenstände suchen, aufsammeln und woanders hinbringen kann. Angewiesen wird er dabei über eine Quest: Der Träger sieht dann, welche Schritte der Roboterhund ausführen möchte und kann eingreifen, so es denn nötig ist.

Roboterhund Spot sucht eine Plüsch-Ananas.

(Bild: emw)

Das Besondere von V-Jepa 2 ist das Verständnis der Umgebung und damit der physikalischen Welt. Yann LeCun hat schon mehrfach gesagt, dass er die Herangehensweise von generativer KI für untauglich halte, wenn es um die Entwicklung einer AGI oder AMI geht. Sie funktioniere für Text, weil es eine endliche Anzahl von Symbolen gebe. "Wenn dein Ziel ist, ein Weltmodell für Erkennung oder Planung zu trainieren, ist die Verwendung von Pixel-Vorhersagen eine schreckliche Idee", kommentierte LeCun bereits OpenAIs Videogenerator Sora.

Sprache könne laut LeCun niemals die reale Welt abbilden. Wir können uns Sachen vorstellen, ohne dass es mit Sprache zu tun habe, erklärt er in einem neuen Video, das im Blogbeitrag zu V-Jepa 2 veröffentlicht wurde. Ein Weltmodell müsse eher einem digitalen Zwilling der realen Welt entsprechen. Der Mensch lerne schon als Kleinkind, wie die Welt funktioniert – indem er sie beobachtet und schon bevor er sprechen kann. Das versucht Meta nachzubauen. Sodass Vorhersagen getroffen werden können, was in der physikalischen Welt passiert, etwa wenn ein Ball fällt. Er fällt und fliegt nicht plötzlich wieder hoch.

Im Blogbeitrag klingt es, als könne man nur mit einem solchen Verständnis wirklich hilfreiche KI-Agenten entwickeln. Bei Meta gibt es aber offenbar auch Menschen, die das anders sehen. Mark Zuckerberg selbst soll derzeit ein Team in San Francisco rekrutieren, das sich um die Entwicklung generativer KI und einer AGI bemühen soll. Inhaltlich ist wenig bekannt. Medien berichten jedoch, dass Zuckerberg potenzielle Kandidaten zu sich einlädt. Zudem heißt es, solle Alexandr Wang samt seinem Unternehmen Scale AI von Meta übernommen werden. Scale AI bietet vor allem Datensets an, die für das KI-Training aufbereitet wurden. Genau das also, was für das Training von Jepa nicht nötig ist.

Meta hat auch zwei neue Benchmarks herausgebracht, um das physikalische Verständnis von Modellen zu testen: IntPhys 2 sei entwickelt worden, um die Fähigkeit von Modellen zu messen, zwischen physikalisch plausiblen und unplausiblen Szenarien zu unterscheiden. Es baut auf dem früheren IntPhys Benchmark auf.

Minimal Video Pairs (MVPBench) misst die physikalischen Verständnisfähigkeiten von Videosprachmodellen anhand von Multiple-Choice-Fragen. "Im Gegensatz zu anderen Benchmarks für die Beantwortung von Videofragen in der Literatur ist MVPBench so konzipiert, dass häufige Abkürzungen, die bei videogestützten Sprachmodellen beobachtet wurden, wie beispielsweise das Verlassen auf oberflächliche visuelle oder textuelle Hinweise und Verzerrungen, vermieden."

(emw)