Apache Software Foundation: Echtzeitanalyse-System Pinot wird Top-Level-Projekt
Seit 2015 ist Pinot Open Source und steigt nun aus dem Apache-Inkubator auf. Die verteilte Infrastruktur fĂĽr Big-Data-Analysen in Echtzeit stammte von LinkedIn.
- Silke Hahn
Apache Pinot ist nach drei Jahren Inkubatorphase bei der Apache Software Foundation (ASF) zum Top-Level-Projekt aufgestiegen. Die verteilte Infrastruktur zum Analysieren von Big Data zielt laut Projektbeschreibung auf hohen Durchsatz bei geringen Latenzzeiten. UrsprĂĽnglich stammt Pinot aus der Feder von LinkedIn-Entwicklern, die es 2013 aus der Taufe gehoben hatten.
Von LinkedIn zur Apache Software Foundation
Eingangs diente es dem sozialen Netzwerk zum Analysieren von Nutzerdaten und entwickelte sich dort zu einer De-facto-Analyseplattform, um Mitgliedern und Kunden Einblicke zu gewähren. Einerseits kam es offenbar bei Features wie "Wer hat mein Profil angeschaut" und beim Matching von Jobausschreibungen zum Einsatz, andererseits diente es wohl auch der internen Weiterentwicklung der LinkedIn-Software.
2015 übergab LinkedIn das Projekt der Apache Software Foundation zur Weiterentwicklung als Open Source, wo es 2018 den Inkubator betrat und nun laut Mitteilung im Apache-Blog seine Reifeprüfung bestanden hat. Laut Blogeintrag ist Pinot in der Lage, Milliarden von Datensätzen mittels Online Analytical Processing (OLAP) einzulesen, und zwar sowohl online als auch offline. Als Datenquellen kommen neben den Apache-eigenen Projekten Kafka, Spark und Hadoop auch Cloud-Speicher außerhalb des Apache-Spektrums sowie einfache Dateien infrage. An Streaming-Systemen unterstützt Pinot außerdem Confluent Kafka, Amazon Kinesis sowie anpasssbare Eingabeformate. Avro und JSON beispielsweise unterstützt Pinot "Out-of-the-Box".
Technische Seite von Pinot
Die Indizierung läuft bei Pinot nach dem Plug-in-Prinzip: Indizes lassen sich für Texte, Geodaten, JSON-Inhalte und Bereiche ebenso erstellen wie invertierte oder sortierte Indizes und Bloomfilter. Bei den Ansichten sollen Anwenderinnen und Anwender über einen Star-Tree-Index ihre Daten rasch aggregieren können (sogenannte Smart Materialized Views). Die Infrastruktur gilt als hochverfügbar und fehlertolerant, sie lässt sich horizontal skalieren. Zudem unterstützt Pinot mit PrestoDB/Trino von Haus aus Lookup Joins und Full Joins.
Einsatzbereich und weiterfĂĽhrende Informationen
Apache Pinot ist mittlerweile bei einem breiten Spektrum von Unternehmen und Anwendungsfällen im Einsatz. So nutzen laut Blogeintrag neben LinkedIn unter anderem Adbeat, Amazon Eero, Cloud Kitchens, Startree, Uber und Walmart das Analysesystem. Insbesondere Fintech-Unternehmen wie Razorpay und WePay haben offenbar Interesse an dem Tool, aber auch Lieferdienste und Einzelhandelsketten in Use Cases mit großem Datenvolumen.
Mehr Informationen sowie konkrete Use Cases lassen sich der AnkĂĽndigung im Blog der Apache Software Foundation entnehmen. Die aktuelle Version von Pinot ist 0.7.1, an Neuerungen hat sie eine Reihe von APIs zum Verwalten von Segmenten und Daten-Upload in Offline-Tabellen eingefĂĽhrt. Zudem verfĂĽgt Pinot in dieser Version ĂĽber einen JSON-Index, unterstĂĽtzt Geodaten sowie TLS fĂĽr Pinot-Verbindungen beim Datenabruf. Wer sich fĂĽr den technischen Hintergrund von Apache Pinot interessiert, kann auch die Projekt-Website besuchen.
(sih)