Meta SAM 3 und 3D als offene Modelle verfügbar

SAM segmentiert Objekte auf Bildern und in Videos, sogar Audio ist per Prompt separierbar: Das KI-Modell ist frei verfügbar.

vorlesen Druckansicht
Maskierte Zebras.

Alle Zebras sind mittels Prompt segmentiert worden.

(Bild: SAM)

Lesezeit: 3 Min.

Meta macht SAM 3, 3D Objects und 3D Body frei verfügbar. Das sind die neuesten Segmentierungsmodelle. Was sperrig klingt, meint tatsächlich das automatisierte Segmentieren von Objekten in Bildern und Videos. So lassen sich Objekte erfassen und beispielsweise in neue Umgebungen einfügen. Meta sieht darin einen wichtigen Schritt bei der Computer Vision.

SAM steht für Segment Anything Model. Man kann die neue Version etwa über die App Edits nutzen oder den Playground – eine extra eingerichtete Webseite, die Modelle sind aber auch frei auf den gängigen Plattformen verfügbar.

(Bild: Eva-Maria Weiß / KI / SAM)

Im Playground lassen sich Bilder oder Videos hochladen und Elemente per Prompt auswählen, die SAM freistellt. Dafür reicht in der Regel ein einzelnes Wort, SAM erkennt etwas eine Person, einen Hund oder einen Wasserkocher. Möglich sind nur simple Prompts mit ein, zwei oder auch drei Wörtern. Das liegt daran, dass Meta sich für ein Encoder-Modell entschieden hat, statt ein großes Sprachmodell zu integrieren – wie uns Nikhila Ravi, Research-Engineer bei Meta in einem Interview erklärt.

Danach lassen sich Effekte anwenden. Man kann das Objekt klonen, verpixeln, Rahmen setzen, den Hintergrund verändern, schwärzen und vieles mehr. Die Bilder lassen sich herunterladen. Fast schon obligatorisches Einsatzgebiet für diese Art von Spielereien ist freilich Instagram. Die Bilder lassen sich aber auch anderswo hochladen und verschicken.

Möglich ist es auch, Objekte aus Fotos auszuwählen, von denen SAM ein 3D-Bild erstellt. Diese lassen sich dann wiederum in andere Hintergründe einfügen sowie Effekte drüberlegen. Eine Lampe im luftleeren Raum über Eis und mit Glühwürmchen-artigen Punkten ist zwar kein wirklich realistisches Nutzungsszenario, aber lustig. Hält man das Objekt mit der Maus fest, lässt sich der Blickwinkel ändern. Selbst Personen können zu 3D-Bildern werden, deren Bewegungen auch über mehrere Bilder hinweg segmentiert werden. Dafür gibt es das spezialisierte Modell SAM 3D Body, bei dem im Hintergrund die Skelettstruktur einer Person erfasst wird statt der Form des gesamten Körpervolumens.

Mit SAM 3D kann man eine Lampe in den Schnee hängen.

(Bild: SAM)

Meta testet die 3D-Funktion bereits im Facebook Marketplace aus. Dort können Käufer angebotene Wohngegenstände freistellen und in die eigenen Räumlichkeiten integrieren. An ähnlichen Funktionen wird im Online-Shopping schon lange gearbeitet, allerdings waren die Freisteller und Objekte bisher deutlich komplexer in der Erstellung. Dass man Gebrauchtwaren mal eben in ein 3D-Objekt umwandeln kann, ist neu.

Neben dem Playground kann SAM 3 auch in Edits genutzt werden. Das ist Metas KI-basierte Videoeditor-App. Die Funktionen sind hier ebenfalls darauf ausgelegt, die Videos und Bilder dann bei Instagram hochzuladen. Eine ähnliche App bietet auch Tiktok mit CapCut an.

Videos by heise

Das Modell ist nicht darauf trainiert, etwa in der Medizin eingesetzt zu werden. Hierfür bedürfte es eines weiteren Finetunings. Die Einsatzgebiete von SAM reichen neben der spaßigen Bild- und Videobearbeitung bis zur Robotik und dem Datalabeling.

Neu ist auch das Modell SAM Audio. Damit lassen sich Geräusche, Sprache und Musik segmentieren. Möglich ist etwa, aus einer Videoaufnahme von einer Band nur die Gitarre herauszufiltern. Ein Gespräch oder Vogelgezwitscher können aus einer Umgebung separiert werden. Es reicht auch hier ein simpler Prompt. Meta spricht von einem Perception Encoder Audio Video – einem neuen ebenfalls frei verfügbaren Modell.

(emw)