Word-Dokumente unter Linux lesen
Ich bekomme öfter per EMail Dateien in Microsofts DOC-Format, mit dem ich auf meinem Linux-Rechner nichts anfangen kann. Gibt es nicht eine Möglichkeit, wenigstens den enthaltenen Text der Dateien zu extrahieren?
Ich bekomme öfter per EMail Dateien in Microsofts DOC-Format, mit dem ich auf meinem Linux-Rechner nichts anfangen kann. Gibt es nicht eine Möglichkeit, wenigstens den enthaltenen Text der Dateien zu extrahieren?
Das Paket Laola enthält ein Perl-Skript namens lhalw (Let´s have a look at word) mit dem sich Word-6- und Word-7-Dokumente in Textdateien umwandeln lassen. Außerdem enthält es Tools, um beispielsweise den Paßwortschutz von Word-Dokumenten zu entfernen (http://wwwwbs.cs.tu-berlin.de/~schwartz/pmh/laola.html). Dem Word-8-Format von Word 97 läßt sich mit mswordview beikommen (http://skynet.csn.ul.ie/~caolan/docs/MSWordView.html). Beide Tools können allerdings nur den reinen Text extrahieren. (ju) (ju)