Textextraktor Tika erreicht Version 1.0

Apache Tika ist ein Werkzeug zum Extrahieren von Metadaten und strukturiertem Text aus unterschiedlichsten Dateiformaten wie HTML, XML, MS-Office, OpenDocument, PDF, ePub und RTF.

08.11.2011, 18:54 Uhr

Lesezeit: 1 Min.

Von

Dr. Oliver Diedrich

Apache Tika ist ein Werkzeug zum Extrahieren von Metadaten und strukturiertem Text aus unterschiedlichsten Dateiformaten wie HTML, XML, MS-Office, OpenDocument, PDF, ePub und RTF und kann auch mit komprimierten Dateien, Text in verschiedenen Enkodierungen sowie Outlook- und Mbox-Mailboxen umgehen. Auch Text aus Bild-, Audio- und Video-Dateien lässt sich damit extrahieren. Die Software, die aus als Unterprojekt von Apache Lucene gestartet ist und letztes Jahr ein eigenständiges Top-Level-Projekt wurde, hat jetzt Version 1.0 erreicht.

Apache Tika besteht aus einer Sammlung von Java-Bibliotheken und nutzt eine Reihe bereits bestehender Parser für die verschiedenen Dokumentenformate. Die Software ist zur Einbindung in Suchmaschinen gedacht; mit Tika-app existiert aber auch eine grafische Anwendung, mit der sich die Inhalte unterschiedlichster Dateitypen durchforsten lassen.

Einen Überblick über die alle Neuerungen gegen die Release Notes. Quelltexte und die Tika-app stehen zum Download zur Verfügung, eine Anleitung erklärt die ersten Schritte mit Tika. Die Software steht unter der Apache-Lizenz Version 2. (odi)