ApacheCon 2009: Lucene, Hadoop und mehr

Seite 2: ApacheCon 2009: Tag 4 und 5

Inhaltsverzeichnis

Auch der vierte Konferenztag beschäftigte sich in parallelen Tracks mit fünf Themen: Httpd.conf – Administrators and Users, Content Technology at Apache, Lucene, Apache Web Services und Community.

Im Lucene-Track stellten bekannte Lucene- Committer die beliebte Open-Source-Suchmaschine vor. Den Anfang machte Grant Ingersoll, der einen Überblick über das Lucene-Ökosystem gab. Das Lucene-Projekt umfasst mehr als nur den Suchindex: Solr vereinfacht das Deployment von Lucene-Indizes und erweitert die Suchmaschine um Features wie Facetting, um Nutzern die Navigation in Suchergebnissen zu erleichtern. Das bringt typische Eigenschaften von Unternehmens-Suchmaschinen für Lucene-Nutzer.

Mit Tika entsteht ein Framework, das das Parsen von verschiedenster Dokumentenformate wie PDF oder MS-Office über eine einheitliche Schnittstelle erlaubt.

Die Entwickler von Nutch wollen auf Basis von Lucene eine Suchmaschine entwickeln, mit der Nutzer einerseits öffentliche Webseiten aus dem WWW crawlen, indizieren und durchsuchen, aber auch Suchmaschinen für den eigenen Datenbestand aufsetzen können. Das Projekt kommt komplett mit Crawler, Parsern, Index und einfachem Suchfrontend. In den letzten Jahren ist es eher ruhig geworden um das Projekt – die größte Hürde beim Aufbau großer Suchmaschinen sind neben der Software die Hardwareanforderungen. Aktuell arbeiten die Nutch-Entwickler daran, die Software in einfach austauschbare und kombinierbare Module aufzuteilen, was die Arbeit mit Nutch sehr viel flexibler machen soll. Zum Parsing von Dokumenten wird momentan Tika integriert. Als Indexer soll sich zukünftig auch Solr einsetzen lassen.

Ein weiteres, sehr junges Lucene Projekt ist Apache Mahout, eine Bibliothek von Textmining- und Machine-Learning-Algorithmen, die auch mit großen Datenmengen arbeiten kann. Mahout unterstützt die Identifikation inhaltlich zusammengehörender Nachrichten, die Klassifikation von Material etwa zur Erkennung von Spam-Mails sowie den Aufbau von Recommender-Systemen ähnlich Amazons "Kunden, die dieses Produkt mochten, haben auch folgende Bücher gekauft".

Im zweiten Talk stellte Michael Busch die Neuerungen in Lucene 2.9 im Detail vor.

In der Donnerstags-Keynote "Standing Out in the Crowd" analysierte Kirrily Robert, warum in Open-Source-Communities vergleichsweise wenige weibliche Entwickler zu finden sind und welche Strategien dazu führen könnten, Open-Source-Projekte einfacher zugänglich für Außenstehende zu machen.

Im Anschluss stellte Chris Hostetter Solr im Detail vor und zeigt mit Hilfe des Admin-Web-GUI, wie einfach man indexierte Dokumente mit Solr-Boardmitteln alleine analysieren kann. Weiterhin gab er einen Überblick, welche Strategien bei der Auswahl von Feldern als Facetten helfen können. Mark Miller ging im Anschluss auf das Thema Performance Tuning bei Lucene und Solr ein. Er erklärte den Teilnehmern, welche Optionen in den Solr-Konfigurationsdateien starke Auswirkungen auf die Performance von Solr und Lucene haben.

Ross Gardler stellte im Community-Track das Thema "Open Source Entwicklung in Ausbildung und Lehre" vor. Obwohl auch an Universitäten Softwareprojekte durchgeführt werden und Forscher Software entwickeln, gibt es vergleichsweise wenig Austausch zwischen Forschungsinstituten und der Open-Source-Community. Außerdem spielen Prinzipien, auf denen die Entwicklung von Open-Source-Software basiert, derzeit eine untergeordnete Rolle in der Lehre.

Apache hat mit ComDev (Community Development) ein eigenes Projekt gegründet, dessen Ziel es ist, neue Community-Mitglieder anzuwerben und ihre Integration in existierende Communities zu vereinfachen. Ein Projekt, dass von comdev sehr interessiert aufgenommen wurde, läuft aktuell an der TU Berlin: Im aktuellen Semester wurde erstmals ein Kurs angeboten, dessen Ziel es ist, den teilnehmenden Studenten nicht nur die Arbeit mit Open-Source-Software nahe zu bringen, sondern ihre Arbeit auch in die entsprechenden Projekte zurückfließen zu lassen.

Der zweite Tag schloss mit der beliebten Lightning Talks Session, in der Entwickler und Nutzer von Apache-Projekten eingeladen sind, nicht ganz ernstgemeinte, nur wenige Minuten lange Vorträge zu halten.

Am fünften Tag standen in parallelen Tracks die Themen Lucene, httpd.conf, Geronimo & Apache Directory, Apache Felix – OSGi und Apache OFBiz auf dem Programm.

Der dem Apache-Webserver gewidmete Httpd-Track begann mit einem Panel mit den Entwicklern. Unter dem Titel "Welcome to the future" stellten sie die Neuerungen vor, die Nutzer von dem kommenden Release 2.4 erwarten können; darunter Verbesserungen an den Proxymodulen, das Modul mod-lua, das – wie der Name schon vermuten läßt – die Programmiersprache Lua unterstützt, sowie wein vebesserter Umgang mit Clients mit langsamer Internetverbindung.

Der parallel dazu laufende Lucene-Track konzentrierte sich am letzten Tag hauptsächlich auf Technologien, die Suchmaschinen noch effizienter machen und dem Nutzer einen größeren Mehrwert bieten können. Mit Apache Mahout ist vor wenigen Jahren ein Projekt im Lucene-Umfeld entstanden, dessen Ziel es ist, skalierbare Machine Learning Bibliotheken zur Verfügung zu stellen. Zu den bisher unterstützten Aufgabenstellungen gehört zum Beispiel die Identifikation von Gruppen (Clustern) sich ähnelnder Nachrichten. Klassifiationsalgorithmen, die zum Beispiel bei Spam-Filtern gebraucht werden, sind ebenfalls verfügbar. Die bisher umfangreichste Komponente stellt Recommender Algorithmen zur Verfügung, mit deren Hilfe zum Beispiel Web-Shop Betreiber ihren Kunden verwandte Produkte anzeigen können.

Im Anschluss stellte Jukka Zitting Tika vor, ein Projekt, das Parser für verschiedenste Dokumentenformate unter einer möglichst einheitlichen API integriert. Sowohl beim Web-Crawling als auch bei der Indexierung von Dokumenten im Intranet stößt man immer wieder auf das Problem, dass relevante Dokumente als Präsentation, PDF- oder MS-Word-Datei gespeichert sind. Um auch diese Dokumente durchsuchbar zu machen ist die Integration eines Dokumentenparsers notwendig, der den Inhalt der verschiedenen Dokumente extrahieren kann. Tika integriert Parser für verschiedene Formate in einem Projekt – so wird für PDF auf pdfbox zurück gegriffen, für HTML bislang auf Neko, mit dem neuen Release auf TagSoup. Für Microsoft Office-Formate greift Tika auf Apache POI zurück.

Für die Keynote am Freitag war Brian Behlendorf, Apache-Entwickler der ersten Stunde, zum Thema "How Open Source Developers can (still) Save the World" eingeladen. Ausgehend vom Erfolg des Open-Source-Modells bei "Basistechnologien" wie Betriebssystemen und Webservern erklärte er, dass inzwischen auch weniger offensichtliche Bereiche vom Einsatz freier Software profitieren. Ein Beispiel ist Scratch – ein Programm, mit dem Kinder spielerisch lernen können, was "Programmieren" bedeutet, und selbst erste Programme schreiben. Aber auch bei elektronischen Healthcare-Systemen oder in öffentlichen Institutionen wird freie Software zunehmend wichtiger.

Nach der Mittagspause erklärte Ted Dunning, wie sich Algorithmen aus der Welt der Recommender-Systeme nutzen lassen, um Suchmaschinen zu verbessern. So ist es beispielsweise für eine Videosuchmaschine sinnvoll, Queries, die ein Nutzer an das System gestellt hat, mit Videos zu kombinieren, die er gesehen hat. Daraus lassen sich dann, eine genügend große Datenmenge vorausgesetzt, Rückschlüsse auf den Inhalt der Videos ziehen. Vor allem für Videos ohne Beschreibung kann dies zu einer höheren Trefferrate führen. Wird ein solches System eingesetzt, ist es letztlich möglich, nicht nur direkte Treffer für eine Query zurückzuliefern, sondern auch ähnliche, verwandte Videos anzuzeigen. Ted schloss seinen Vortrag mit einer offenen Diskussion mit dem Publikum, in der die Zuhörer eingeladen waren, ihre eigenen Aufgabenstellungen vorzustellen und zur Diskussion zu stellen.

Den Abschluss machte am Freitag Jason Rutherglen, der das Realtime Search Feature vorstellte. Dabei handelt es sich um eine Erweiterung für Lucene, mit der es möglich ist, indexierte Dokumente schneller als bisher zur Suche zur Verfügung zu stellen.

Die Konferenz endete mit dem Abschlussplenum und einer Lotterie. Und die Teilnehmer waren zufrieden: Sommerliches Wetter, spannende Vorträge, interessante Diskussionen. Kleine organisatorische Pannen konnten den guten Eindruck nicht ankratzen. (odi)