Textextraktor Apache Tika in Version 1.2 erschienen

Größte Neuerung ist ein Servermodul, das eine Java-API für RESTful-Webservices (JAX-RS) auf Basis von Apache CXF bereitstellt.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 1 Min.

Apache Tika, ein Werkzeug um Extrahieren von Metadaten und strukturiertem Text aus Dateiformaten wie HTML, XML, MS-Office, OpenDocument, PDF, ePub und RTF, ist in Version 1.2 erschienen. Größte Neuerung ist ein Servermodul auf Basis von Apache CXF, das eine Java-API für RESTful-Webservices (JAX-RS) bereitstellt.

Ebenfalls neu ist die Unterstützung für Metadaten nach dem XMP-Standard. Die Liste der unterstützten Dateiformate wurde unter anderem um das Geodatenformat KML das Kompressionsformat XZ erweitert. Die Erkennung der Zeichensatzkodierung wurde verbessert. Weitere Neuerungen nennen die Release Notes. Tika 1.2 steht im Quelltext und als lauffähige Jar-Datei unter Apache-2-Lizenz zum Download bereit. (odi)