Buchbesprechung: Deciphering Data Architectures

Das von James Serra bei O'Reilly neu erschienene Lehrbuch erläutert Schlüsselkonzepte und Datenarchitekturen von Big Data.

In Pocket speichern vorlesen Druckansicht
Container in Reihe

(Bild: Scott Prokop / Shutterstock.com)

Lesezeit: 4 Min.
Von
  • Tam Hanna
Inhaltsverzeichnis

James Serra
Deciphering Data Architectures
Choosing Between a Modern Data Warehouse, Data Fabric, Data Lakehouse, and Data Mesh
O'Reilly Media, Februar 2024
280 Seiten, ab 66,34 Euro (Print und E-Book)
ISBN: 978-1-098-15076-1

Mit "Deciphering Data Architectures" legt der O’Reilly-Verlag ein neues, englischsprachiges Lehrbuch vor, das eine Einführung in die grundlegenden Konzepte und praktischen Methoden von Big Data und Data Science gibt und die wichtigsten Fachbegriffe dazu erläutert. Der Autor James Serra, der als Solution Architect für Big Data und Data Warehousing bei Microsoft tätig ist, legt den Fokus konsequent auf das Vermitteln des Wie. Aktuell und daher besonders wertvoll sind seine Ausführungen zu den vier Datenarchitektur-Modellen: Modern Data Warehouse, Data Fabric, Data Lakehouse und Data Mesh, die Serra im Detail vorstellt und vergleicht.

Besonderes Augenmerk legt Deciphering Data Architecture auf vermaschte Architekturen, zu denen der Autor eine Liste häufiger falscher Versprechen, mit denen sich Anwenderinnen und Anwender bei der Entscheidung für und wider eine verteilte Datenhaltung konfrontiert sehen. Neben Überlegungen zu den diversen in den Datenbanksystemen implementierten Design-Paradigmen finden sich im Buch konkrete Hinweise zur Auswahl der für die jeweiligen Zwecke am besten geeigneten Datenbank.

Anhand einer zwölf Punkte umfassenden Liste häufiger Probleme, die beim Einsatz von Datenbanken im Big-Data-Kontext auftreten, unterstreicht Serra die Wichtigkeit der regelmäßigen Pflege einer Datenbank – sowohl durch Admins als auch durch Nutzerinnen und Nutzer. Die Liste umfasst unter anderem die allgegenwärtige Performance-Thematik aus Anwendersicht, aber auch komplexere Herausforderungen wie die komplette Auslagerung eines Datenbank-Projekts an externe Beratungsfirmen. Den Problemen stellt der Autor allerdings Kriterien gegenüber, die sich in erfolgreichen Datenbank-Projekten bewährt haben und Anhaltspunkte für eine geeignete Vorgehensweise liefern.

(Bild: O'Reilly)

Wer an dieser Stelle Hinweise und Empfehlungen zu spezifischen Technologien sucht, den wird "Deciphering Data Architecture" enttäuschen. Denn das kurze letzte Kapitel mit der vielsagenden Überschrift "Technologies" vergleicht primär die am Markt verfügbaren Datenbanksysteme und stellt sie einander gegenüber. Ein Schwerpunkt liegt dabei auf Cloud-Systemen.

Ein kurzer Ausflug zu klassischen Frameworks wie Hadoop, den Angeboten von Unternehmen wie Databricks und Snowflake sowie ein tabellarischer Vergleich der Features der von Azure, AWS und GCP offerierten Datenbanksysteme runden diesen Teil des Lehrbuchs ab. Tiefer ins Detail gehende Informationen hierzu müssen sich Leser aus anderen Quellen erschließen.

Trotz des vergleichsweise geringen Umfangs – das Lehrbuch umfasst in der PDF-Ausgabe nur rund 280 Seiten – verzichtet der Autor nicht auf Tiefgang. In den ersten Kapiteln finden sich detaillierte Ausführungen zur Geschichte der computerisierten Datenverarbeitung. Auch dem als Architecture Design Session bezeichneten Kick-off-Meeting mit Stakeholdern, das nach Ansicht des Autors beim Erstellen einer zukunftsfähigen Datenbankarchitektur nie fehlen sollte, widmet sich Serra ausführlich.

Fast schon motivierenden Charakter hat die Präsentation verschiedener Methoden zur Repräsentation und Normalisierung der Informationen. Während manche der Themen mit SQL vertrauten Entwicklern bekannt erscheinen dürften, fanden sich selbst nach vielen Jahren routinierter Arbeit mit SQL-Statements noch die eine oder andere praktische Neuerung.

data2day 2024: Die Konferenz für Data Scientists, Data Engineers und Data Teams

Die data2day ist seit 2014 die Konferenz für alle Fachleute, die rund um Data Science, Data Engineering und Data Analytics aktiv sind – auf dem Weg zum datengetriebenen Unternehmen. Sie vermittelt am 18. und 19. September 2024 in Heidelberg sowohl Grundlagen für den Einstieg in Data Science und Machine Learning für Data Beginners als auch tiefer greifende Informationen zu Architekturen, Prozessen und Vorgehensmodellen für Data Professionals.

Die data2day legt einerseits den Fokus auf die technische Umsetzung von Projekten aus den Bereichen Big Data, Data Science, Machine Learning, Künstliche Intelligenz, Internet der Dinge und Enterprise Search. Sie will andererseits aber auch die Diskussion über die sozialen und datenschutzrechtlichen Aspekte beim Einsatz von Algorithmen sowie zu ethischen Herausforderungen künstlicher Intelligenz anregen.

Das zentrale Thema Data Ingestion, also das Aufnehmen von Informationen in das Datenbanksystem, handelt das Werk ebenfalls umfassend ab. In diesem Zusammenhang präsentiert der Autor Überlegungen zur optimalen Größe der Verarbeitungseinheiten: Sowohl die Echtzeit-Verarbeitung (Stream Processing) als auch das schon in Zeiten des Mainframes populäre Batch Processing haben Vor- und Nachteile, die sich auf Effizienz und TCO (Total Cost of Ownership) auswirken.

"Deciphering Data Architectures" empfiehlt sich all jenen als Lektüre, die sich rund um Data Science und Big Data einen Überblick verschaffen möchten – das gilt gleichermaßen für (angehende) Data Scientists als auch für Admins, die sich weitergehendes Wissen aneignen möchten. Der Autor liefert einen strukturierten Wegweiser, der das Wie und das Warum der Ansätze in den Fokus rückt, ohne sich in Details zu verlieren. Diese Mischung macht das englischsprachige Werk kurzweilig und einfach zu lesen – auch für Nicht-Muttersprachler.

Tam Hanna
beschäftigt sich mit kombinatorischen MSR-Systemen, die Handcomputer und Elektronik vereinen. Auf Instagram (tam.hanna) berichtet er Neues aus der Welt der Elektronik.

(map)