Netzwerk-Crawler Apache Nutch in Version 2.0

Die Apache Software Foundation hat die Version 2.0 des Web-Crawlers Nutch veröffentlicht.

vorlesen Druckansicht
Lesezeit: 1 Min.

Die Apache Software Foundation hat die Version 2.0 des Web-Crawlers Nutch veröffentlicht. Nutch durchstöbert Websites und erzeugt dabei einen durchsuchbaren Index des Inhalts. Das Framework setzt auf anderen Apache-Projekten wie der Suchmachine Solr, dem Dokumentenparser Tika, der Storage-Abstraktion Gora und dem Framework für verteilte Datenspeicherung Hadoop auf.

Nutch 2.0 ist ein unabhängiger Entwicklungszweig zum Durchsuchen großer Mengen von Websites. Die Nutch-Version 1.x wird ebenfalls weiterentwickelt; aktuell ist die Version 1.5.1. Nutch steht unter der Apache-2-Lizenz. (odi)