LLM lokal: Handschriftliche Notizen, Rezepte & Co. mit Vision-KI digitalisieren
Moderne Vision-LLMs wie Gemma 4 können auch Handschriften lesen. Wir zeigen lokale KI-Workflows, die Bildinhalte analysieren und strukturiert extrahieren.
(Bild: KI / heise medien)
Omas Apfelkuchen ist der beste. Zum Glück hat sie ihr Rezept handschriftlich festgehalten. Mit einer Vision-KI archivieren Sie nicht nur das Apfelkuchen-Rezept in digitaler Form. Sie können Sammlungen an handschriftlichen Notizen oder textlastige Screenshots etwa als Text-Dokumente oder in einer Auszeichnungssprache speichern.
Spannend ist das gerade auch für Nutzer lokaler KI-Systeme. KI-Chatbots können zwar auch Bilder analysieren, sie haben aber oft strenge Nutzungslimits für Dateiuploads – selbst in den Bezahlversionen. Im lokalen Betrieb kann man die Modelle hingegen mit dutzenden Dateien in automatischen Prozessen füttern. Dabei lässt sich die KI zwingen, ihre Antworten in einem festen Schema auszugeben. Die Ergebnisse kann man automatisiert als Markdown-Dateien exportieren, die sich wiederum in Notiz-Apps wie Obsidian organisieren lassen.
- Bilder betrachten, Handschriften lesen, Texte extrahieren: Das bieten Vision-LLMs. Und sie lassen sich auch lokal auf dem eigenen KI-Rechner nutzen.
- Wir stellen einen Python-Workflow vor, mit dem Sie Texte aus handschriftlichen Notizen, Fotos oder Screenshots extrahieren und weiterverarbeiten können. Das Ergebnis erscheint in einer übersichtlichen Markdown-Struktur.
- Um eigene Ideen umzusetzen, lässt sich das Python-Skript einfach anpassen und spezialisieren.
Der Artikel stellt einen Python-Workflow vor, in dem das kostenlose Vision-LLM Gemma4 Bilder wie Notizen, Rezepte und Screenshots aus einem Eingabe-Ordner verarbeitet. Es kann den Inhalt der Bilder wiedergeben, zusammenfassen, kategorisieren und das Ergebnis jeweils in einer Markdown-Datei speichern. Wir haben das Projekt auf einem Windows-PC mit einer Nvidia-Grafikkarte erstellt und ausprobiert. Wie man das Skript individuell umbaut, zeigen wir am Beispiel von Rezepten: Das Skript ist auf deutsch- und englischsprachige Koch- und Backrezepte angepasst.
Vision-Modelle finden und lokal ausprobieren
Large Language Models (LLM) mit Vision-Funktion können Bilder betrachten und ihren Inhalt wiedergeben. In Kombination mit den Fähigkeiten der KI ergeben sich daraus interessante Möglichkeiten: Statt wie eine normale Texterkennungssoftware nur den Inhalt zu erfassen, kann das LLM ihn analysieren, zusammenfassen und ihn Kategorien zuordnen – ohne hohen Programmieraufwand.
Handschriften entziffert Googles neues Open-Weights-Modell Gemma 4 recht zuverlässig. Natürlich steht und fällt das Ergebnis mit der Qualität des Schriftbildes. Bei kaum leserlichem Gekritzel darf man von der KI keine Wunder erwarten. Und da Gemma 4 auch nicht frei von Flüchtigkeitsfehlern ist, bleibt oft etwas händische Nacharbeit übrig. Große Teile der Schreibarbeit kann die KI einem aber automatisiert abnehmen.
Lokale LLMs, die zur Bildbetrachtung in der Lage sind, tragen bei KI-Modellmanagern wie Ollama oder LM Studio die Kennzeichnung „Vision“. Die Bildbetrachtungs-Fähigkeit dieser Modelle lässt sich über die Bedienoberfläche der Manager einfach ausprobieren: Vision-LLM herunterladen und auswählen, beliebige Bilddatei hochladen und nach dem Bildinhalt fragen. Wer hingegen viele Bilder nach einem fest definierten Prozess verarbeiten will, braucht einen anderen Workflow.
Dafür bietet sich zum Beispiel die Programmiersprache Python an. Eine Python-Bibliothek für Ollama erlaubt die direkte Ansprache der KI-Modelle über das Python-Skript. Weitere Bibliotheken gewähren dem Skript etwa Dateizugriffe im Explorer, damit es Dateien einlesen und der KI samt System- und User-Prompt zur Analyse übergeben kann. Das Ergebnis lässt sich in einer definierten Struktur wie Markdown oder einem anderen Dokumentenformat speichern.
Videos by heise