BigData bei den Berlin Buzzwords
Auf den Berlin Buzzwords trafen sich über 400 Softwarespezialisten aus aller Welt, um mehr über skalierbare Suche, Datenanalyse und NoSQL-Datenbanken zu erfahren. Wer hochskalierbare Systeme bauen will, für den war die Konferenz genau richtig.
- Rudolf Jansen
Auf der zum zweiten Mal ausgetragenen Konferenz Berlin Buzzwords trafen sich über 400 Softwarespezialisten aus aller Welt, um mehr über skalierbare Suche, Datenanalyse und NoSQL-Datenbanken zu erfahren. Wer hochskalierbare Systeme bauen will, für den war die Konferenz genau richtig.
Die Berlin Buzzwords entstanden laut den Organisatoren Isabel Drost, Jan Lehnardt und Simon Willnauer vor zwei Jahren als Antwort auf die Frage, wie man nach dem Abschied der ApacheCon aus Europa die entstandene Lücke füllen könne. Auf der zweiten Auflage, die diese Woche in der Berliner Urania stattfand, ging es in drei Tracks und zwei Keynotes vor allem um die Apache-Projekte Hadoop und Lucene, aber auch um NoSQL-Datenbanken.
(Bild: Philipp Kaden)
Die Konferenz eröffnete Doug Cutting, der an einigen der auf der Veranstaltung behandelten Projekte beteiligt war, etwa als "Gründer" von Lucene und Hadoop. Seine Keynote gab einen Überblick zur Entstehungsgeschichte der Projekte, die derzeit zum Hadoop-Ökosystem gezählt werden und den Schwerpunkt der Konferenz ausmachten (nämlich Lucene, Nutch und Hadoop).
Während diese Keynote das Augenmerk auf die Vergangenheit setzte, ging die des zweiten Tags auf die Zukunft von Hadoop ein. Ted Dunning von MapR Technologie stellte einige nachdenklich stimmende Thesen über die Gefahren auf, die dem Ökosystem drohen, wenn es der Hadoop-Community nicht gelänge, einige Misstöne der letzten Zeit zu beseitigen. Als Beispiel nannte er die zunehmende Zahl von Forks, die Firmen unabhängig vom Apache-Release-Ast weiterentwickeln. Wer mehr über Dunnings Ideen und die anschließende Diskussion erfahren möchte, kann sich über Twitter (#bbuzzted) informieren oder die Slides anschauen.
(Bild: Philipp Kaden)
Das in den Sessions am häufigsten erwähnte Projekt war sicherlich Hadoop, kein Wunder angesichts Cuttings Statements: "We don't have Hadoop because we have large data; we have large data because we have Hadoop." Neben einer Einführung in Hadoop gab es Vorträge zu fortgeschrittenen Aspekten, zum
Beispiel zur Sicherheit und zu MapReduce-Patterns. Ein weiteres, ausführlich behandeltes Thema war Lucene. Zur Sprache kamen neben der zukünftigen Lucene-Version 4.0 auch Unterprojekte wie Solr und Mahout, mit denen man die Suchindex-Bibliothek in eigene Projekte einbinden kann.
Etabliertes NoSQL
Als Einstieg in den NoSQL-Track gab Mathias Meyer, Developer Advocate bei Basho Technologies, in seiner "NoSlides-NoSQL-Session" die Empfehlung, eine direkte Implementierung von MapReduce-Funktionen zu meiden und stattdessen darauf zu setzen, dass in naher Zukunft die meisten NoSQL-Datenbanken "SQL-ähnliche" Abfragesprachen anbieten würden. Für Programmier-Freaks mag eine MapReduce-Implementierung in Erlang oder anderen Sprachen zwar spannend sein, nach Meyers Beobachtung haben sich NoSQL-Datenbanken aber in letzter Zeit über technikerprobte Start-ups hinaus zunehmend in großen Unternehmen durchgesetzt, und für einen solchen "Massenmarkt" könnten umfangreich zu implementierende MapReduce-Funktionen ein Hindernis sein.
Nach diesem ohne Codebeispielen auskommenden Einführungsvortrag folgte als Kontrast Mathias Stearns ausschließlich mit Live-Coding-Beispielen ausgestatteter Beitrag über MongoDB, in dem der MongoDB-Entwickler unter anderem vielversprechende Funktionen der Datenbank für GIS-Applikationen vorstellte. Weitere mit separaten Vorträgen auf der Konferenz vertretene NoSQL-Vertreter waren Redis, Riak, CouchDB, HBase, VoltDB, Cassandra und Neo4j.
Beeindruckende Zahlen zu einem Einsatz von NoSQL-Datenbanken in einem Cluster von 3000 Knoten mit insgesamt 30 Petabyte Speicher lieferte Jonathan Gray in seinem Vortrag über den Einsatz von HBase bei Facebook. Auch die Argumente von Facebook gegen den Einsatz von MySQL und für HBase in neuen Projekten sowie die Argumente gegen eine komplette Ablösung von MySQL durch HBase stießen beim Publikum auf großes Interesse. Da Facebook einen kompletten Umstieg hauptsächlich aus finanziellen Gründen nicht in Erwägung gezogen hat, setzt das Unternehmen HBase auf der Basis des HDFC (Hadoop Distributed File System) bei neuen Projekten ein, zum Beispiel für Facebook Messaging, dem wohl größten Einzelprojekt in der Facebook-Firmengeschichte mit einem Mengengerüst von 15 Billionen Nachrichten pro Monat.
Fazit
Auch wenn sich der Name Buzzwords etwas marketinglastig anhört, wurde die Ausrichtung auf Entwickler beim Blick auf das Programm schnell klar. Hervorzuheben war die gute Mischung aus Vorträgen mit Einsteigerniveau und zu fortgeschrittenen Themen wie endlichen Zustandsautomaten in Lucene. Zwar fehlten bahnbrechende Neuankündigungen in den Keynotes, dafür konnte man als Informatiker an einigen Stellen auf seine theoretischen Kenntnisse aus dem Studium zurückgreifen, um die Grundlagen der behandelten Frameworks zu verstehen.
Die Berlin Buzzwords sind eine empfehlenswerte Veranstaltung für Softwareentwickler, die sich für technische Details zu den Themen Suche, Datenanalyse und NoSQL-Datenbanken interessieren. Zusammen mit einem Barcamp und Workshops, die die Teilnehmer der Hauptkonferenz nach Registrierung ohne zusätzliche Teilnahmegebühren besuchen konnten, ergab sich ein exzellentes Preis-Leistungs-Verhältnis vor allem für Besucher, die die kompletten sieben Tage Programm genossen. Lediglich bei der Essensausgabe hätte man sich eine bessere Lastverteilung gewünscht: Davon gab es lediglich zwei Instanzen, die vor allem in der Mittagspause schnell zum Bottleneck der Konferenz wurden.
Wer nicht persönlich an der Konferenz teilnehmen konnte, kann sich über die Slides und Videos der Vorträge auf der Konferenzseite ein Bild von den behandelten Themen machen.
Rudolf Jansen
arbeitet als freiberuflicher Softwareentwickler und Journalist in Aachen. Seine Tätigkeitsschwerpunkte liegen in den Bereichen Java, C++ und Datenbanken.
(ane)