Fotos in einer Sammlung finden: Multimodale KI in Python einbinden und befragen

KI kann Bilder analysieren und Fragen dazu beantworten. Wir zeigen, wie Sie ein solches KI-Modell in Ihr Python-Skript integrieren und damit Metadaten erzeugen.

Artikel verschenken

1

(Bild: KI, Collage c’t)

18.02.2025, 10:00 Uhr

Lesezeit: 13 Min.

c't Magazin

Von

Mirko Dölle

Fotos in einer Sammlung finden: Multimodale KI in Python einbinden und befragen
- Strikt getrennt
Kontakt zur KI
Netzwerkauslastung reduzieren
Notabschaltung: KI im Fieberkoma
Prompts, Fotos markieren
Exkurs: DeepSeek-Modelle nutzen

Artikel in c't 5/2025 lesen

Ein bestimmtes Urlaubsfoto zu finden, ist bei der Menge an Bildern, die man mit dem Smartphone schießt, ziemlich schwierig. Man müsste sie sich zumindest in einer Übersicht ansehen.

Diese Aufgabe kann heute ein entsprechend trainiertes KI-Modell übernehmen, das jedes Bild einzeln analysiert und eine Bildbeschreibung nebst Stichworten liefert. Die Vermittlung zwischen Bildersammlung und KI-Modell übernimmt ein Python-Skript, indem es die Bilder der KI vorlegt und die zurückgelieferten Daten in die Metadaten des Bilds einpflegt.

Verschiedenste KI-Modelle lassen sich per HTTP über das API von Ollama-Containern einheitlich ansprechen.
Gelegentlich fallen Modelle in eine Art Fieberkoma und blockieren die Verarbeitung, weshalb ein Watchdog notwendig wird.
Die ExifTool-Bibliothek in Python erlaubt, Metadaten zu ergänzen, ohne durch erneute Kompression die Qualität von JPEG-Bildern anzutasten.

KI-Systeme, die Bilder oder andere Medientypen verarbeiten können, bezeichnet man als multimodale Large Language Models (LLMs). Wie Sie ein solches auf Ihrem Rechner oder NAS in einem Docker-Container installieren, der das generische Ollama-Framework für LLMs enthält, haben wir bereits beschrieben. Kontakt zum LLM erhalten Sie per HTTP-Client über das API, das standardmäßig auf Port 11434 auf Verbindungen lauscht.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Linux und macOS: Kommandozeile mit Lernspielen meistern

In diesen kurzweiligen Spielen erkunden Sie magische Königreiche, klären einen Mord auf und lernen nebenbei Linux oder macOS per Kommandozeile zu bedienen.

Erwin Schrödinger mit Schrödingers Katze und der Schrödingergleichung

100 Jahre Schrödingergleichung: Warum die Katze noch immer nicht tot ist

Zum Jubiläum der Grundgleichung der Quantenphysik zeigt sich, dass ein frustrierendes Gedankenexperiment aktueller ist als je zuvor.

In Udine war ich zum ersten Mal bewusst mit der Kamera in dieser Stadt unterwegs. Deshalb habe ich mich für das 20–40 Millimeter entschieden, um flexibel zu bleiben. Spiegelungen sind zum Fotografieren immer reizvoll und ermöglichen DSGVO-gerechte Aufnahmen. , Alle Bilder: Bernd Grosseck

Slow Photography: Mit Ruhe, Technik und Blick fürs Detail zu besseren Bildern

Slow Photography entschleunigt bewusst. Mit weniger Ausrüstung, manuellem Fokussieren und klaren Kompositionen zu mehr Freude an der Fotografie.

Audi Q5 e-hybrid: Plug-in-Hybrid mit starker Konkurrenz im Test

Der dritte Q5 bietet auch in Kombination mit dem Plug-in-Hybrid für sich betrachtet ein feines Fahrerlebnis. Doch der Druck durch Elektroautos wächst.

KI-Grafik: Real gewordener OpenClaw-Bot arbeitet mit Schraubenschlüssel in der Hand am System.

OpenClaw im Selbstversuch: Erste Schritte mit dem Super-KI-Agenten

OpenClaw macht aus LLMs eigenständige Helfer: Sie senden Mails, schreiben Skripte und erledigen komplexe Aufgaben. Wir haben das in sicherer Umgebung probiert.