Datenanalyse: Oracle springt auf den Lakehouse-Zug auf

Der neue Cloud-Service MySQL HeatWave Lakehouse von Oracle zielt auf das hochperformante Laden und Analysieren groĂźer Datenmengen.

In Pocket speichern vorlesen Druckansicht
Neural,Network,3d,Illustration.,Big,Data,And,Cybersecurity.,Data,Stream.

(Bild: Yurchanka Siarhei / Shutterstock.com)

Lesezeit: 3 Min.
Von
  • Lars Röwekamp

Im Rahmen der Oracle CloudWorld 2022 hat Oracle ein Lakehouse-System als Cloud-Service angekündigt. MySQL HeatWave Lakehouse ermöglicht das Laden und Analysieren von bis zu 400 TByte Daten unterschiedlichster Formate auf bis zu 512 Knoten in der Cloud und soll dabei besonders performant arbeiten.

Bereits seit 2020 bietet Oracle den OCI-Service (Oracle Cloud Infrastructure) MySQL HeatWave an, der OLTP (Online Transaction Processing), OLAP (Online Analytical Processing), Machine Learning und KI-gesteuerte Automatisierung in einer einzigen MySQL-Datenbank kombiniert.

Der Fokus des Cloud-Services MySQL HeatWave liegt auf Performance, Sicherheit und Verlässlichkeit und erlaubt das Ausführen von Transaktionsverarbeitung, Analytik und Machine Learning, ohne dazu Daten via ETL (Extrahieren, Transformieren, Laden) zwischen separaten OLTP- und OLAP-Datenbanken dupliziert zu müssen. Das spart nicht nur Zeit und Geld, sondern mindert auch Sicherheitsrisiken, die sich durch den Austausch der Daten zwischen den Systemen ergeben können.

Mit Lakehouse kĂĽndigt Oracle im Rahmen der Oracle CloudWorld 2022 nun eine Lakehouse-Erweiterung von MySQL HeatWave an, die das Beste aus mehreren Datenwelten in einem Service vereinen soll.

Lakehouse-Systeme kombinieren die Vorteile von Data Warehouses wie die Verarbeitung strukturierter Daten inklusive transaktionaler Updates und Deletes mit der Kosteneffizienz und Agilität von Data Lakes und bieten so eine gute Grundlage für Datenanalysten. Mitbewerber wie Databricks, Teradata oder Snowflake haben bereits Lakehouse-Systeme im Angebot, die Oracle nach eigenen Angaben in Sachen Performance um ein Vielfaches schlägt. Ermöglicht wird dies durch die Verarbeitung und Analyse von bis zu 400 Terabyte an Daten im Objektspeicher in einem Cluster von bis zu 512 Knoten. Die zugehörigen Benchmarks sind auf GitHub öffentlich zugänglich und dokumentiert.

Die Analyse der Daten via MySQL HeatWave Lakehouse ist dabei nicht nur auf Daten der MySQL-Datenbank beschränkt. In einem einzigen Vorgang lassen sich Daten aus der MySQL-Datenbank abfragen und mit Daten im Objektspeicher in verschiedenen Formaten kombinieren und analysieren. Zu den unterstützen Formaten gehören neben CVS und Apache Parquet auch Aurora- und Redshift-Backups von AWS. Das Laden und Verarbeiten der Daten erfolgt – unabhängig von Format und Quelle – in MySQL-Standardsyntax, wobei das Systeme alle an den OLTP-Daten vorgenommenen Änderungen in Echtzeit aktualisiert und im Abfrageergebnis widerspiegelt.

Darüber hinaus hat Oracle MySQL Autopilot für Lakehouse adaptiert und zusätzlich um spezielle Funktionen erweitert. MySQL Autopilot bietet auf Machine Learning basierende Automatisierung für MySQL HeatWave wie das automatische Provisionieren oder die ML-gestützte Optimierung automatisierter Abfragepläne.

MySQL HeatWave Lakehouse steht aktuell als Beta für Kunden zum Ausprobieren zur Verfügung und soll nach Angaben von Oracle in der ersten Hälfte 2023 offiziell erscheinen.

(rme)