Meta FAIR: Wasserzeichen für Videos und virtuelle Agenten mit Beinen

Das wissenschaftliche KI-Team von Meta hat eine Reihe Verbesserungen für gängige KI-Modelle herausgebracht. Alle frei verfügbar.

vorlesen Druckansicht 1 Kommentar lesen

(Bild: everything possible/Shutterstock.com)

Lesezeit: 4 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Meta Video Seal ist ein neuartiges Wasserzeichen für KI-Videos, Meta Motivo ein KI-Model, das Agenten in virtuellen Räumen kontrolliert. Unter Flow Matching fasst Meta Methoden zusammen, die bisherige Diffusionsmodelle ablösen sollen. Und dann gibt Meta auch noch ein Update darin, wie sie glauben, KI klüger machen zu können. Das FAIR-Team – Fundamental AI Research – legt eine Reihe neuer Entwicklungen offen.

Mit Meta Video Seal will Meta die Risiken, dass KI missbraucht wird, zumindest minimieren. Wasserzeichen seien ein notwendiger Schritt, um Inhalte und KI-Modelle rückverfolgbar zu machen. Dabei ist die neue Methode ein "umfassendes Framework für neuronale Wasserzeichen in Videos". Unsichtbar für das Auge, aber robust gegenüber gängigen Videobearbeitungen, die die Herkunft verschleiern könnten. Dazu zählen etwa das Beschneiden von Videos oder Videokompression, wenn die Inhalte bei Social-Media hochgeladen werden. Research-Paper, Trainingscode und Inferenzcode sind frei verfügbar.

Videos by heise

Video Seal ist bereits als Audio Seal verfügbar. Auch Metas Wasserzeichen-Tool, Meta Watermark Anything Model, kommt unter eine freie Lizenz.

KI-Agenten sollen künftig zahlreiche Aufgaben für Menschen übernehmen. Daran arbeiten alle großen KI-Anbieter. Meta bringt nun ein KI-Modell heraus, mit dem virtuelle Agenten, solche, denen ein Körper angedacht ist, gesteuert werden können. Meta Motivo sei auf einem neuartigen Algorithmus trainiert worden, der einen Datensatz aus Bewegungen nutzt. Die menschenähnlichen Verhaltensweisen sollen dann mittels Reinforcement Learning gelernt werden, also verstärkendes Lernen, bei dem die Modelle auf Belohnungen für richtiges Verhalten aus sind. Neu ist die Übertragung. Meta schreibt im Blogbeitrag: Die wichtigste technische Neuerung unseres Algorithmus ist das Erlernen einer Repräsentation, die verwendet werden kann, um Zustände, Bewegungen und Belohnungen in denselben latenten Raum einzubetten."

Meta Motivo steuert Körper.

(Bild: Meta Blogbeitrag)

War es bis vor Kurzem noch eine Art Running Gag, dass die Avatare im Metaverse keine Beine hatten, dürfte es nun ein leichtes sein, mit dem Modell, realistisch wirkende Bewegungen von Kopf bis Fuß nachzubilden. Laut Meta zeigen sich die Abläufe auch äußerst robust bei verschiedenen Bedingungen wie Wind oder anderen Störgrößen. Neben dem Metaverse erdenkt sich der Konzern auch, dass die Technik für sogenannte NPCs eingesetzt werden könnte, die Abkürzung steht für Non-Playable-Characters in Videospielen.

Bildgeneratoren der ersten Stunde basierten auf sogenannten Diffusionsmodellen. Diese werden zunehmend abgelöst beziehungsweise erweitert. Meta fasst unter dem Begriff Flow Matching ein Paradigma zusammen, mit dem verschiedene Inhalte generiert werden können. Meta Movie Gen, Meta Audiobox und Meta Melody Flow sollen unter anderem bereits auf die neue Technik umgestellt sein. Aber auch Stable Diffusion-3, Fold-Flow, Physical Intelligence Pi_0 und der im Schwarzwald entwickelte Bildgenerator Flux nutzen offenbar Flow Matching. Flux-1 von Black Forest Labs war bisher für die Bildgenerierung in xAIs Grok zuständig, erst kürzlich wurde das Modell vom hauseigenen Aurora abgelöst.

Flow Matching erweitert Diffusionmodelle um Continuous Normalizing Flows (CNFs). Das verkürzt quasi den Prozess bei der Bilderstellung aufgrund von Wahrscheinlichkeiten. Auch hierzu hat Meta alles Wissenswerte veröffentlicht.

Das gilt auch für eine neue Theory-of-Mind namens Meta Explore Theory-of-Mind. "Unser neuartiger Rahmen ermöglicht die Generierung vielfältiger, anspruchsvoller und skalierbarer ToM-Daten sowohl für das Training als auch für die Auswertung, was den Fortschritt in diesem wichtigen Forschungsbereich beschleunigen wird", schreibt Meta.

Ein Large Concept Model (LCM) soll die Sprachfähigkeit vom Denken entkoppeln. Das erklärt Meta mit dem Beispiel eines Präsentators, der bei dem gleichen Vortrag zwar immer denselben Inhalt vermitteln will, bei dem sich aber die Wortwahl ändert. Dieses Paradigma soll dann nicht mehr einen folgenden Token vorhersagen, sondern eine folgende Idee oder einen Inhalt. Dadurch sollen die Modelle sehr viel besser Inhalte zusammenfassen können und insgesamt effizienter sein.

Um dem Problem zu entgehen, dass Large Language Models nicht mit einzelnen Buchstaben oder Zahlen umgehen können, will Meta Token durch Bytes ersetzen: Meta Dynamic Byte Latent Transformer sollen dann auch buchstabieren oder zählen können.

(emw)