Solr and Lucene mit neuem Standard-Codec
Die beiden Apache-Techniken enthalten in Version 4.2 einen neuen Standard-Codec, der DocValues mit offenbar größerer Effizienz als bislang speichert und eine bessere Komprimierung bei Term-Vektoren bietet.
- Alexander Neumann
Die Entwickler des Apache-Projekts Lucene haben die Version 4.2 der Text-Suche und der darauf aufsetzenden Suchplattform Apache Solr veröffentlicht. Lucene enthält mit Lucene42Codec einen neuen Standard-Codec, der DocValues – die generische Klasse zum Ablegen von Zahlen und Zeichenketten – mit offenbar größerer Effizienz als bislang speichert. Außerdem bietet der Codec anscheinend eine bessere Komprimierung bei Term-Vektoren. Refactorings und Performancearbeiten am Faceting-Modul sollen des Weiteren in bestimmten Fällen zu einer 3,8-mal schnelleren Ausführung geführt haben. Lucene 4.2 ist in der Lage, mit endlichen Transduktoren größer als 2 GByte umzugehen.
Solr verfügt mittlerweile über eine REST-API, mir der Entwickler das Datenschema lesen können; ein Schema schreiben zu können ist zumindest schon angekündigt. DocValues sind auch in Solr integriert, und insofern sie ein schnelleres Laden ermöglichen und bessere Komprimieralgorithmen verwenden, sind damit wohl weitere funktionale und Performancegewinne zu erreichen. Außerdem können Solr-User nun eigene Namen für Shards vergeben. (ane)