DataSketches zum Top-Level-Projekt der Apache Software Foundation gekürt

Die Big-Data-Analysebibliothek für Näherungsalgorithmen ist nach knapp zwei Jahren im Incubator nun ein vollwertiges Projekt der Open-Source-Organisation.

In Pocket speichern vorlesen Druckansicht

(Bild: Itzchaz/Shutterstock.com)

Lesezeit: 1 Min.
Von
  • Alexander Neumann

Apache DataSketches ist das jüngste Top-Level-Projekt der Open-Source-Organisation. Die Big-Data-Analysebibliothek für skalierbare Approximationsalgorithmen hat somit die Incubator-Phase hinter sich, in der ihre Entwickler beweisen mussten, dass das Projekt den Prinzipien und Anforderungen der Apache Software Foundation gemäß betrieben wird.

Apache DataSketches entstand 2012 bei Yahoo, wurde 2015 als Open-Source-Projekt veröffentlicht und war seit März 2019 ein Apache-Incubator-Projekt. Die Bibliothek umfasst spezialisierte Streaming-Algorithmen (sog. Sketches), und kleine Datenstrukturen, die Daten in großem Umfang verarbeiten können. Die Sketches sind offenbar ideal für Abfragen, die nicht die Zeit oder große Rechenressourcen aufbringen können, die für gewöhnlich für das Generieren exakter Ergebnisse benötigt werden. Wo ungefähre Ergebnisse akzeptabel sind, sind Sketches eine brauchbare Alternative für interaktive Abfragen mit Echtzeitanalyse.

Die Bibliothek wird in großen Datenverarbeitungsumgebungen bei Nielsen Identity, Permutive, Splice Machine und Verizon Media eingesetzt. Auch die Apache-Projekte Druid und Pinot nutzen die Algorithmen von DataSketches.

Weitere Informationen finden sich in der Ankündigung und auf der Website des Projekts.

(ane)