Bildklassifikation ohne Cloud mit ĂĽberschaubarem Programmieraufwand

Websitebetreiber, die Uploads erlauben, können unangemessene Inhalte mit einer Kombi von Vision Transformer und Vision LLM datenschutzkonform klassifizieren.

Artikel verschenken
vorlesen Druckansicht
, Vanessa Bahr / KI / iX

(Bild: Vanessa Bahr / KI / iX)

Lesezeit: 16 Min.
Von
  • Stefan Wintermeyer
Inhaltsverzeichnis

Wer im Web ein Forum, einen Marktplatz, eine Social-Media-App oder auch im Intranet eine Plattform betreibt, auf der Nutzer Bilder hochladen können, steht früher oder später vor der Frage: Wie erkennt man automatisch Bilder, die dort nichts zu suchen haben, damit man sie direkt als problematisch flaggen kann?

Als Sammelbegriff für problematische Inhalte steht NSFW (Not Save for Work). In der Content-Moderation umfasst das vor allem Nacktheit und sexuelle Darstellungen, aber auch explizite Gewalt und alles, was gegen die Nutzungsbedingungen einer Plattform verstößt.

iX-tract
  • Websitebetreiber können unangemessene Bilder (NSFW) lokal mit einer zweistufigen Pipeline aus Vision Transformer (ViT) und Vision LLM klassifizieren.
  • Stufe 1 nutzt ein schnelles Vision-Transformer-Modell, das 85 bis 95 Prozent der Bilder innerhalb von Millisekunden klassifiziert.
  • Stufe 2 analysiert Grenzfälle mit Ollama und Qwen3.5.
  • Die Pipeline wird in Elixir mit Bumblebee und Nx implementiert.
  • Vorteile sind Datenschutz (kein Drittlandtransfer, keine Auftragsdatenverarbeitung) sowie hohe Skalierbarkeit durch die Erlang-VM.
Mehr zum Thema Programmieren
Stefan Wintermeyer

Stefan Wintermeyer ist Consultant und Trainer fĂĽr Software- und Systemarchitektur. Fokus: Phoenix, Ruby on Rails, Web-Perf, Asterisk/VoIP, KI und Agentic Programming, effektive Workflows und nutzerseitige Verhaltensmuster.

Die naheliegende Lösung sind Cloud-Dienste wie AWS Recognition oder Google Cloud Vision. Sie funktionieren, haben aber einen Haken: Jedes hochgeladene Nutzerbild wird an Server im Ausland geschickt, dort analysiert – und je nach Anbieter auch temporär gespeichert oder für Trainingszwecke verwendet. Für datenschutzbewusste Betreiber in der EU ist das problematisch – Stichwort Auftragsverarbeitung und Drittlandtransfer. Es geht aber auch lokal. Wer Ollama installiert hat, kann NSFW-Erkennung sofort ausprobieren – ein Terminalbefehl genügt:

Das war die Leseprobe unseres heise-Plus-Artikels "Bildklassifikation ohne Cloud mit überschaubarem Programmieraufwand". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.