LinkedIn stellt Tuning-Tool fĂĽr Spark und Hadoop unter Open-Source-Lizenz

Mit dem bislang bei LinkedIn intern genutzten Dr. Elephant erhält man ein Verständnis darüber, wie sich die Performance von Hadoop- und Spark-Workflows verbessern lässt.

vorlesen Druckansicht
LinkedIn veröffentlilcht Spark-Tuning-Tool unter Open-Source-Lizenz
Lesezeit: 1 Min.
Von
  • Alexander Neumann

Das soziale Netz LinkedIn hat Dr. Elephant, ein Werkzeug zur Beschleunigung von Hadoop- und Spark-Anwendungen, unter die Apache-Lizenz gestellt. Dr. Elephant wird in der Ankündigung als einfaches Tool beschrieben, mit dem Nutzer der beiden populären Big-Data-Frameworks ein Verständnis darüber erhalten können, wie sie die Performance ihrer Workflows verbessern können.

Dr. Elephant ist vor dem Hintergrund entstanden, dass bei LinkedIn jeden Tag mehr als 100.000 Hadoop- und Spark-Jobs laufen. Und da die Zahl der mit Spark und Hadoop getätigten Analysen kontinuierlich zugenommen habe, habe irgendwann der Bedarf nach einem automatisiert arbeitenden Tuning-Tool bestanden. Seit rund einem Jahr komme es nun beim XING-Konkurrenten zum Einsatz und sei seitdem aus dem Lebenszyklus vieler Big-Data-Anwendungen nicht mehr wegzudenken.

Dr. Elephant trägt alle Messwerte der Hadoop-Jobs zusammen, analysiert sie und präsent deren Ergebnisse auf offenbar anschauliche Weise. Für die Analyse greift das Werkzeug auf konfigurierbare, regelbasierte Heuristiken zurück, die einen Einblick geben sollen, wie performant sich ein Job verhält. Darüber hinaus bietet es auf Basis der Analyseergebnisse Vorschläge, wie sich die Anwendungen performanter gestalten lassen.

Genaue Details zur Arbeitsweise von Dr. Elephant finden sich im Entwickler-Blog. Dokumentation und Sourcen werden auf GitHub bereitgestellt. (ane)