Berlin Buzzwords in Berlin

Am gestrigen Montag startete in Berlin die Berlin Buzzwords. 330 Teilnehmer besuchten die Konferenz zu den Themen skalierbare Datenspeicherung und -analyse sowie Suchmaschinen-Entwicklung.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 5 Min.
Von
  • Isabel Drost
  • Dr. Oliver Diedrich

Am gestrigen Montag startete in Berlin die Berlin Buzzwords. 330 Teilnehmer besuchten die Veranstaltung, deren Schwerpunkt auf den Themen skalierbare Datenspeicherung und -analyse sowie Entwicklung von Suchmaschinen liegt.

Auftaktveranstaltung war ein vorgeschalteter Barcamp im newthinking store in Berlin Mitte. Moderiert von Nick Burch, Mitglied der Apache Software Foundation und Softwareentwickler bei Alfresco, ging es in zwei Tracks um die Themen NoSQL und Skalierbarkeit. Pieter Hintjens, ehemals Präsident des FFII und Kerndesigner des Messaging Protokolls AMQP, stellte das Projekt zeroMQ vor. Ein weiteres großes Thema war Lucene – mit Grant Ingersoll, Robert Muir, Simon Willnauer, Uwe Schindler, Michael Busch und anderen waren viele Vertreter der Kern-Lucene-Community vor Ort.

Die eigentliche Konferenz begann am Montagmorgen mit einer Keynote zum Thema Apache Lucene von Grant Ingersoll (Project Management Comittee Chair von Apache Lucene). Der Vortrag ging insbesondere auf das Zusammenspiel von Lucene mit anderen inzwischen zu Top-Level-Projekten gewordenen Apache-Entwicklungen ein.

Da sich In den vergangenen Jahren die Menge an zur Verfügung stehenden Daten vervielfacht hat, benötigt man intelligente Systeme zur Extraktion von Informationen. Das Ziel ist, mit Lucene und Schwesterprojekten einen Software-Stack anzubieten, mit dessen Hilfe intelligente Datenanalyse, -extraktion und -aufbereitung erfolgen kann: Bei der Navigation und Suche in den Daten helfen Lucene und Solr. Mahout liefert Algorithmen aus dem Bereich des maschinellen Lernens, um aus Texten und Nutzerinteraktionen semantische Information zu extrahieren – beispielsweise zum Generieren von Empfehlungen in Webshops.

Der Rest des Tages war geprägt von den Themen skalierbare Suche, hauptsächlich mit Apache Lucene und NoSQL-Datenbanken: Uwe Schindler und Simon Willnauer stellten in ihrem Vortrag die aktuellen Entwicklungen im Lucene-Projekt wie die Unicode-Unterstützung für zu parsende Texte vor. Auch die flexible Indexierung von Dokumenten war ein Thema. Flexible Indexing bezeichnet aktuell Verbesserungen an der Token Stream API, mit deren Hilfe eigene Lucene Analyzer zur Dokumentenverarbeitung noch flexibler implementiert werden können. Zukünftig soll es möglich sein, diese Zusatzinformationen nicht nur während der Dokumentenanalyse zu verwenden, sondern sie auch im Index abzulegen und zum Ranking zu verwenden.

Michael Busch von Twitter stellte die neuen Fähigkeiten zur Real-Time Search vor. Dabei geht es nicht um Echtzeitfähigkeit im engeren Sinne; im Lucene-Umfeld bezeichnet Real-Time Search die sehr schnelle Aktualisierung des Index, sodass Änderungen im Datenbestand schon nach kurzer Zeit vom Nutzer gefunden werden können. Um dieses Feature auch bei Lucene unterstützen zu können, waren umfangreiche Änderungen und Verbesserungen am Indexierungsverhalten der Suchmaschine notwendig, die unter anderem paralleles Suchen und schreibende Indexierungsoperationen ermöglichen.

Der parallel laufende NoSQL-Track wurde von Mathias Meyer eröffnet. Er stellte in seinem Überblicksvortrag die Motivation für alternative Datenbanksysteme vor, die sich vor allem für Szenarien eignen, in denen bei verteilten Datenbanken Toleranz gegenüber Partitionierung und die Verfügbarkeit wichtiger sind als strenge Konsistenzanforderungen.

Peter Neubauer stellte mit neo4j eine Datenbank speziell für Graphenstrukturen vor. Jan Lehnardt erklärte in seinem CouchDB-Vortrag, warum Skalierbarkeit nicht nur "Skalierung zu großen Systemen" bedeuten darf, sondern auch "Skalierung zu besonders kleinen Systemen" umfassen muss. So ist es möglich, CouchDB auf Mobiltelefonen zu installieren und zu nutzen – andererseits ist es auch bei der BBC in Rechenclustern im Einsatz. Das Ziel beim Design von CouchDB ist es, den Kern möglichst stabil, robust und skalierbar zu gestalten. Das bedeutet auch, dass bei neuen Features darauf geachtet wird, dass diese auch in verteilten Setups funktionieren.

Weitere Vorträge stellten die Datenbanken Riak und MongoDB vor. Steven Noels von outerthought berichtete von seinen Erfahrungen bei der Umsetzung eines Content Management Systems auf der Basis von NoSQL-Technik. Outerthought begann schon frühzeitig mit der Evaluierung verschiedener Technologien zum Speichern größerer Mengen semi-strukturierter Daten. Letztlich fiel bei der Umsetzung die Entscheidung auf HBase – nicht zuletzt aufgrund deren Stabilität und Skalierbarkeit.

Der Abend endete mit Ausflügen in den nahe gelegenen Kiez Friedrichshain. Teilnehmer, die sich vor Ort auskannten, führten kleinere und größere Gruppen von interessierten Teilnehmern nach Friedrichshain in ihr jeweiliges Lieblingsrestaurant. Eine Gruppe von Lucene-Entwicklern machte sich auf den Weg nach Kreuzberg zum Club der Visionäre.

Zur Berlin Buzzwords eingeladen haben Jan Lehnardt, Simon Willnauer und Isabel Drost. Für die Organisation zeichnet sich newthinking communications verantwortlich. Die Konferenz wird finanziell von Nokia, der Neofonie GmbH und njf Europe unterstützt. Als Bronzesponsoren haben sich kippdata, karmasphere, outerthought, Soundcloud und Google an der Konferenz beteiligt. (odi)