Query Engine Photon für alle Lakehouse-Systeme

Die auf SQL und weitere Sprachen ausgelegte Suchmaschine Photon steht nun für Lakehouse-Datensysteme auf den wichtigsten Cloud-Plattformen bereit.

(Bild: agsandrew/Shutterstock.com)

04.08.2022, 13:34 Uhr

Lesezeit: 2 Min.

Developer

Von

Matthias Parbel

Databricks gibt die allgemeine Verfügbarkeit (GA – General Availability) seiner Query Engine Photon bekannt. Die auf die Databricks-Lakehouse-Architektur ausgelegte Suchmaschine hat laut Ankündigung die im Sommer 2021 gestartete Public-Preview-Phase erfolgreich absolviert. Sie steht ab sofort sämtlichen Nutzerinnen und Nutzern für Abfragen von Data Lakes auf den wichtigsten Cloud-Plattformen für den Produktivbetrieb zur Verfügung.

Mehr Anwendungsbereiche – mehr Tempo

Die neu entwickelte und zu Apache Spark kompatible Query Engine war ursprünglich vor allem darauf ausgerichtet, typische Data-Warehousing-Abfragen mit SQL auch auf Data Lakes mit hoher Perfomance ausführen zu können. Photon lässt sich inzwischen aber auch mit anderen Sprachen wie Python, Scala, Java and R nutzen und deckt Anwendungsgebiete in Data Engineering, Data Science und der Datenanalytik ab.

Videos by heise

Testkunden wie AT&T profitieren laut Anbieter durch Photon von bis zu achtfach schnelleren Abfragen beim Einsatz der Query Engine mit dem Databricks SQL Warehouse. Die damit einhergehenden verkürzten Rechenzeiten schlagen sich zudem in geringeren Kosten nieder: Im Vergleich zu der auf Spark basierenden Databricks Runtime soll die Ersparnis demnach im Durchschnitt bis zu 30 Prozent betragen.

Lesen Sie auch

data2day 2022: Call for Proposals der Konferenz in Karlsruhe gestartet

data2day 2022 wieder vor Ort: Know-how und Best Practices für Datenteams

Im Zuge der GA-Freigabe habe Databricks der Query Engine zudem noch ein paar weitere Performance-Tunings mit auf den Weg gegeben. So sollen gegenüber der Preview-Phase beispielsweise Funktionen, die Berechnungen über eine Reihe von Tabellenzeilen für Anwendungsfälle wie Aggregationen, gleitender Durchschnitt oder Datenduplikationen durchführen, etwa doppelt so schnell arbeiten. Auch die Sortierfunktion vectorized sort arbeite in Photon schneller als in Apache Spark – bis um den Faktor 20.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

YouTube-Video immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Data+AI Summit 2022: Radical Speed on the Lakehouse: Photon Under the Hood

Mehr Informationen zur Query Engine finden sich in der offiziellen Ankündigung im Databricks-Blog. Einen umfassenderen Einblick in Photon liefert darüber hinaus die Aufzeichnung eines Vortrags vom diesjährigen Data+AI Summit.

(map)