Fotos in einer Sammlung finden: Multimodale KI in Python einbinden und befragen
KI kann Bilder analysieren und Fragen dazu beantworten. Wir zeigen, wie Sie ein solches KI-Modell in Ihr Python-Skript integrieren und damit Metadaten erzeugen.
(Bild: KI, Collage c’t)
Ein bestimmtes Urlaubsfoto zu finden, ist bei der Menge an Bildern, die man mit dem Smartphone schieĂźt, ziemlich schwierig. Man mĂĽsste sie sich zumindest in einer Ăśbersicht ansehen.
Diese Aufgabe kann heute ein entsprechend trainiertes KI-Modell ĂĽbernehmen, das jedes Bild einzeln analysiert und eine Bildbeschreibung nebst Stichworten liefert. Die Vermittlung zwischen Bildersammlung und KI-Modell ĂĽbernimmt ein Python-Skript, indem es die Bilder der KI vorlegt und die zurĂĽckgelieferten Daten in die Metadaten des Bilds einpflegt.
- Verschiedenste KI-Modelle lassen sich per HTTP ĂĽber das API von Ollama-Containern einheitlich ansprechen.
- Gelegentlich fallen Modelle in eine Art Fieberkoma und blockieren die Verarbeitung, weshalb ein Watchdog notwendig wird.
- Die ExifTool-Bibliothek in Python erlaubt, Metadaten zu ergänzen, ohne durch erneute Kompression die Qualität von JPEG-Bildern anzutasten.
KI-Systeme, die Bilder oder andere Medientypen verarbeiten können, bezeichnet man als multimodale Large Language Models (LLMs). Wie Sie ein solches auf Ihrem Rechner oder NAS in einem Docker-Container installieren, der das generische Ollama-Framework für LLMs enthält, haben wir bereits beschrieben. Kontakt zum LLM erhalten Sie per HTTP-Client über das API, das standardmäßig auf Port 11434 auf Verbindungen lauscht.
Das war die Leseprobe unseres heise-Plus-Artikels "Fotos in einer Sammlung finden: Multimodale KI in Python einbinden und befragen". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.