DeepSeek-OCR im Test: Textverarbeitung durch Bilder

DeepSeek experimentiert mit einem OCR-Modell und zeigt, dass komprimierte Bilder von Texten fĂĽr Berechnungen auf GPUs speicherfreundlicher sind als Texttoken.

Artikel verschenken
vorlesen Druckansicht
,
Lesezeit: 10 Min.
Von
  • Dr. Christian Winkler
Inhaltsverzeichnis

Viele Unternehmensdokumente liegen zwar als PDFs vor, sind aber häufig gescannt. Das macht es unmöglich, mit dem Text zu arbeiten, ihn beispielsweise zu durchsuchen. Obwohl es simpel klingt, können diese Dokumente oft nur unter großen Mühen in Text gewandelt werden, insbesondere wenn die Struktur der Dokumente komplexer ist und erhalten bleiben soll. Auch Bilder, Tabellen und Grafiken sind häufige Fehlerquellen. In den vergangenen Monaten gab es daher eine wahre Flut von OCR-Software (Optical Character Recognition), die auf große Sprachmodelle (LLMs) setzt.

Auch der chinesische KI-Entwickler DeepSeek steigt nun in diesen Bereich ein und veröffentlicht nach dem Reasoning-Modell R1 ein experimentelles OCR-Modell unter MIT-Lizenz. Es ist eine Technikdemo für einen neuen Ansatz in der Dokumentenverarbeitung durch große Sprachmodelle.

Mehr zum Thema KĂĽnstliche Intelligenz (KI)

DeepSeek versucht, lange Texte in Bildern zu komprimieren, da sich hierdurch eine höhere Informationsdichte mit weniger Token darstellen lässt. DeepSeek legt die Messlatte für die Erwartungen hoch und berichtet, dass das Modell bei hohen Kompressionsraten (Faktor zehn) noch eine Genauigkeit von 97 Prozent erreicht. Bei einer noch stärkeren Kompression sinkt zwar die Genauigkeit, bleibt aber immer noch relativ hoch. Das alles soll schneller funktionieren als bei anderen OCR-Modellen und auf einer Nvidia-A100-GPU bis zu 200.000 Seiten pro Tag verarbeiten.

Das war die Leseprobe unseres heise-Plus-Artikels "DeepSeek-OCR im Test: Textverarbeitung durch Bilder ". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.