Fotos in einer Sammlung finden: Multimodale KI in Python einbinden und befragen
KI kann Bilder analysieren und Fragen dazu beantworten. Wir zeigen, wie Sie ein solches KI-Modell in Ihr Python-Skript integrieren und damit Metadaten erzeugen.
(Bild: KI, Collage c’t)
Ein bestimmtes Urlaubsfoto zu finden, ist bei der Menge an Bildern, die man mit dem Smartphone schießt, ziemlich schwierig. Man müsste sie sich zumindest in einer Übersicht ansehen.
Diese Aufgabe kann heute ein entsprechend trainiertes KI-Modell übernehmen, das jedes Bild einzeln analysiert und eine Bildbeschreibung nebst Stichworten liefert. Die Vermittlung zwischen Bildersammlung und KI-Modell übernimmt ein Python-Skript, indem es die Bilder der KI vorlegt und die zurückgelieferten Daten in die Metadaten des Bilds einpflegt.
- Verschiedenste KI-Modelle lassen sich per HTTP über das API von Ollama-Containern einheitlich ansprechen.
- Gelegentlich fallen Modelle in eine Art Fieberkoma und blockieren die Verarbeitung, weshalb ein Watchdog notwendig wird.
- Die ExifTool-Bibliothek in Python erlaubt, Metadaten zu ergänzen, ohne durch erneute Kompression die Qualität von JPEG-Bildern anzutasten.
KI-Systeme, die Bilder oder andere Medientypen verarbeiten können, bezeichnet man als multimodale Large Language Models (LLMs). Wie Sie ein solches auf Ihrem Rechner oder NAS in einem Docker-Container installieren, der das generische Ollama-Framework für LLMs enthält, haben wir bereits beschrieben. Kontakt zum LLM erhalten Sie per HTTP-Client über das API, das standardmäßig auf Port 11434 auf Verbindungen lauscht.
Das war die Leseprobe unseres heise-Plus-Artikels "Fotos in einer Sammlung finden: Multimodale KI in Python einbinden und befragen". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.