Vision Language Model: Wie FastVLM hochauflösende Bilder im Browser analysiert

Hochauflösende Bilder gelten als Leistungsbremse. Doch neue Ansätze versprechen Abhilfe. FastVLM zeigt, warum die Effizienz nicht bei der Auflösung enden muss.

Artikel verschenken
vorlesen Druckansicht
,
Lesezeit: 13 Min.
Von
  • Dr. Fabian Deitelhoff
Inhaltsverzeichnis

Vision Language Models (VLMs) verbinden visuelle Wahrnehmung mit natürlichen Sprachfähigkeiten und erlauben es, komplexe Aufgaben wie Bildbeschreibung, das Beantworten natürlichsprachiger Anfragen zu Bildern oder multimodale Suche zu erledigen. In den vergangenen Jahren hat sich gezeigt, dass höhere Eingabeauflösungen die Leistungsfähigkeit dieser Modelle deutlich steigern, vor allem bei textintensiven Bildern. Gleichzeitig wächst mit jeder zusätzlichen Bildzeile die Sequenzlänge des Vision-Encoders, wodurch etwa die Zahl der Vision-Token zunimmt und das Sprachmodell eine längere Eingabesequenz verarbeiten muss, was die Inferenzzeit erhöht. Diese Latenz ist für Anwendungen problematisch, die interaktiv und responsiv sein sollen, etwa in Webbrowsern oder auf mobilen Geräten mit begrenzter Rechenleistung.

Klassische VLMs basieren auf Vision-Encoder-Decoder-Architekturen. Als Vision-Encoder dienen vielfach rein Transformer-basierte Modelle wie ViT-B/16 oder Hybridvarianten mit einem Convolutional Neural Network (CNN) als Backbone. Diese Modelle teilen das Bild in Patches, beispielsweise 16 × 16 Pixel groß, projizieren jeden Patch in einen Embedding-Vektor und verarbeiten die Sequenz durch mehrere Self-Attention-Layer. Die Komplexität der Schichten wächst quadratisch mit der Anzahl der Patches (PDF), sodass eine erhöhte Bildauflösung die Latenz schnell in die Höhe treibt. Um diese Latenz zu reduzieren, haben Wissenschaftler Methoden wie Token Pruning oder Token Merging vorgeschlagen, die weniger wichtige Patches verwerfen oder zusammenfassen. Alternativ gibt es kachelbasierte Ansätze, die ein Bild in mehrere Teile zerlegen und separat verarbeiten. All diese Techniken reduzieren die Tokenanzahl, benötigen aber zusätzliche Verarbeitungsschritte oder führen zu Genauigkeitsverlusten.

Mehr zum Thema KĂĽnstliche Intelligenz (KI)
iX-tract
  • In herkömmlichen Vision Language Models fĂĽhrt eine erhöhte Bildauflösung zu weniger performanten Sprachmodellen.
  • Durch die hohen Anforderungen an Speicher und Rechenleistung passen die Modelle fĂĽr den Einsatz im Browser oder auf mobilen Geräten nicht.
  • Das von Apple entwickelte Bildverarbeitungsmodell FastVLM läuft lokal im Browser und verfolgt einen anderen Ansatz: Ăśber den hybriden Vision-Encoder FastViTHD reduziert es die Tokenanzahl bereits während der visuellen Codierung, ohne Genauigkeit einzubĂĽĂźen.

Durch die hohen Anforderungen an Speicher und Rechenleistung sind herkömmliche VLMs für den Einsatz im Browser oder auf mobilen Geräten ungeeignet. Selbst wenn das Modell auf einem Server läuft, verursachen GPU-Infrastruktur und Energieverbrauch hohe Kosten. Gleichzeitig nimmt die Latenz zu, wenn eine Anwendung zwischen Client und Server Bilder übertragen muss. Diese Hürde motivierte die Entwicklung von FastVLM: einem VLM, das lokal und ressourcensparend arbeitet, ohne auf aufwendige Token-Pruning-Heuristiken zurückzugreifen, und dennoch konkurrenzfähige Genauigkeit bietet.

Das war die Leseprobe unseres heise-Plus-Artikels "Vision Language Model: Wie FastVLM hochauflösende Bilder im Browser analysiert". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.