Google: Freie Texterkennung fĂĽr Linux
Google veröffentlicht eine erste Vorabversion von OCRopus, ein in seinem Auftrag entwickeltes OCR-System.
Prof. Dr. Thomas Breuel vom Deutschen Forschungszentrum fĂĽr kĂĽnstliche Intelligenz (DFKI) in Kaiserslautern kĂĽndigte Anfang dieser Woche eine Vorabversion des OCR-Systems OCRopus unter der Apache License 2.0 an. Seine Arbeitsgemeinschaft im Forschungsbereich Bildverstehen und Mustererkennung (IUPR) arbeitet im Auftrag von Google an dem Texterkennungssystem, das fĂĽr die Digitalisierung groĂźer Textmengen wie in Googles Buch-Scan-Projekt entwickelt wird.
Die Software nutzt die in den 90er-Jahren von HP entwickelte Handschriften-Erkennung Tesseract. OCRopus wird unter Ubuntu für x86-Systeme entwickelt, soll jedoch auch auf andere Plattformen portiert werden. Der über Subversion erhältliche Quellcode erkennt zurzeit nur englische Texte.
Der Zeitplan des Projekts kündigt für das dritte Quartal dieses Jahres die Alpha-Version an, ein erstes Beta-Release soll Anfang nächsten Jahres folgen. Erst mit Version 1.0, deren Erscheinen für das dritte Quartal 2008 geplant ist, soll OCRopus eine grafische Oberfläche erhalten. (amu)