Vision Language Model: Wie FastVLM hochauflösende Bilder im Browser analysiert

Hochauflösende Bilder gelten als Leistungsbremse. Doch neue Ansätze versprechen Abhilfe. FastVLM zeigt, warum die Effizienz nicht bei der Auflösung enden muss.

Artikel verschenken

04.02.2026, 12:00 Uhr

Lesezeit: 13 Min.

iX Magazin

Von

Dr. Fabian Deitelhoff

Vision Language Model: Wie FastVLM hochauflösende Bilder im Browser analysiert
- FastVLM-Architektur: hybrid und schnell
RepMixer und Faltungsmodule
Sprachmodell schneller durch weniger Token
Fazit und Ausblick

Artikel in iX 3/2026 lesen

Vision Language Models (VLMs) verbinden visuelle Wahrnehmung mit natürlichen Sprachfähigkeiten und erlauben es, komplexe Aufgaben wie Bildbeschreibung, das Beantworten natürlichsprachiger Anfragen zu Bildern oder multimodale Suche zu erledigen. In den vergangenen Jahren hat sich gezeigt, dass höhere Eingabeauflösungen die Leistungsfähigkeit dieser Modelle deutlich steigern, vor allem bei textintensiven Bildern. Gleichzeitig wächst mit jeder zusätzlichen Bildzeile die Sequenzlänge des Vision-Encoders, wodurch etwa die Zahl der Vision-Token zunimmt und das Sprachmodell eine längere Eingabesequenz verarbeiten muss, was die Inferenzzeit erhöht. Diese Latenz ist für Anwendungen problematisch, die interaktiv und responsiv sein sollen, etwa in Webbrowsern oder auf mobilen Geräten mit begrenzter Rechenleistung.

Klassische VLMs basieren auf Vision-Encoder-Decoder-Architekturen. Als Vision-Encoder dienen vielfach rein Transformer-basierte Modelle wie ViT-B/16 oder Hybridvarianten mit einem Convolutional Neural Network (CNN) als Backbone. Diese Modelle teilen das Bild in Patches, beispielsweise 16 × 16 Pixel groß, projizieren jeden Patch in einen Embedding-Vektor und verarbeiten die Sequenz durch mehrere Self-Attention-Layer. Die Komplexität der Schichten wächst quadratisch mit der Anzahl der Patches (PDF), sodass eine erhöhte Bildauflösung die Latenz schnell in die Höhe treibt. Um diese Latenz zu reduzieren, haben Wissenschaftler Methoden wie Token Pruning oder Token Merging vorgeschlagen, die weniger wichtige Patches verwerfen oder zusammenfassen. Alternativ gibt es kachelbasierte Ansätze, die ein Bild in mehrere Teile zerlegen und separat verarbeiten. All diese Techniken reduzieren die Tokenanzahl, benötigen aber zusätzliche Verarbeitungsschritte oder führen zu Genauigkeitsverlusten.

In herkömmlichen Vision Language Models führt eine erhöhte Bildauflösung zu weniger performanten Sprachmodellen.
Durch die hohen Anforderungen an Speicher und Rechenleistung passen die Modelle für den Einsatz im Browser oder auf mobilen Geräten nicht.
Das von Apple entwickelte Bildverarbeitungsmodell FastVLM läuft lokal im Browser und verfolgt einen anderen Ansatz: Über den hybriden Vision-Encoder FastViTHD reduziert es die Tokenanzahl bereits während der visuellen Codierung, ohne Genauigkeit einzubüßen.

Durch die hohen Anforderungen an Speicher und Rechenleistung sind herkömmliche VLMs für den Einsatz im Browser oder auf mobilen Geräten ungeeignet. Selbst wenn das Modell auf einem Server läuft, verursachen GPU-Infrastruktur und Energieverbrauch hohe Kosten. Gleichzeitig nimmt die Latenz zu, wenn eine Anwendung zwischen Client und Server Bilder übertragen muss. Diese Hürde motivierte die Entwicklung von FastVLM: einem VLM, das lokal und ressourcensparend arbeitet, ohne auf aufwendige Token-Pruning-Heuristiken zurückzugreifen, und dennoch konkurrenzfähige Genauigkeit bietet.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Passbolt: Den europäischen Open-Source-Passwortmanager selbst hosten

Der Passwortmanager Passbolt ist Open Source und wird in Luxemburg entwickelt. Wir zeigen, wie man ihn auf eigener Hardware aus dem Heimnetz betreibt.

Bookmark-Manager: Links sammeln und clever organisieren

Das Web ist voller interessanter Websites. Sie zu sichern und zu verwalten, ist die Aufgabe von Bookmark-Managern. Nebenbei entsteht ein Wissensarchiv.

Vorstellung BMW i3: Die Neuerfindung des 3ers

BMW schlägt mit dem i3 ein neues Kapitel seiner 3er-Reihe auf. Technisch ist vieles vom iX3 bekannt, deshalb aber kaum weniger beeindruckend.

Eigene KI‑Bildmaschine: So läuft Flux lokal auf dem PC

Kein Abo, keine Cloud: Wir zeigen, wie Sie mit Flux und Pinokio einen KI‑Bildgenerator lokal installieren – und welche Hardware dafür nötig ist.

iPad Air M4 im Test: Das kann Apples neues Tablet

Das iPad Air ist für Pro-Leistung ohne Pro-Preise bekannt. Apple hat es mit neueren Chips aufgewertet. Wir klären in diesem Test, was M4 und Wi-Fi 7 bringen.

Galaxy S26 Ultra im Test: Samsungs Gratwanderung mit Privacy Display

Samsung schraubt nur behutsam an der Hardware seiner Top-Smartphones und setzt stattdessen voll auf die Software. Das neue Privacy Display hat einen Haken.