Sharding-Erweiterungen für PostgreSQL- und MariaDB-Cluster

Um Datenbanken zu clustern, verwenden Erweiterungen für PostgreSQL und MariaDB Sharding. Das lohnt sich nicht immer, wohl aber in Einzelfällen.

Artikel verschenken

21.11.2018, 09:20 Uhr

Lesezeit: 26 Min.

iX Magazin

Von

Daniel Bößwetter
Robert Wunderer

Sharding-Erweiterungen für PostgreSQL- und MariaDB-Cluster
CitusDB
Postgres-XL
MariaDB ColumnStore
Benchmark: TPC-H-Ergebnisse
Benchmark: Resultate mit TPC-DS
Fazit

Artikel in iX 7/2018 lesen

Stößt man an die vertikalen Skalierungsgrenzen einer relationalen Datenbank, kommt schnell die Forderung nach einem Cluster. Die meisten Systeme benötigen dafür Zusatzsoftware. Cluster garantieren aber keineswegs einen linearen Speed-up; bisherige Probleme können zwar verschwinden, neue jedoch auftreten. Wir haben Clustering-Lösungen für PostgreSQL und MariaDB untersucht und geben Hinweise, wofür sich deren Einsatz lohnt. Zahlen hierfür liefern Benchmarks des Transaction Processing Performance Council (TPC).

Relationale Datenbanken lassen sich auf verschiedene Arten auf mehrere Rechenknoten verteilen. Bei ausreichendem Storage legt man die gesamten Daten auf mehreren Knoten ab und die verteilt die Leseanfragen darauf. Schreibanfragen landen üblicherweise auf einem Master. Alle anderen Rechner im Cluster sind Replikations-Slaves. Dies funktioniert so lange, bis entweder die Schreiblast auf dem Master oder die (sequenzielle) Replikation zum Flaschenhals wird. Außerdem muss die Applikation wissen, dass auf einem Knoten geschrieben wird und die Daten beim nächsten Lesen vom Slave möglicherweise noch nicht aktuell sind. PostgreSQL erlaubt tatsächlich auch synchrone Replikation, allerdings nur mit einem einzigen Slave.

Verteilt man die Daten, spricht man von Sharding. Dafür sollte es inhaltlich sinnvolle Sollbruchstellen geben, zum Beispiel einen Shard pro Land, Abteilung oder Kundengruppe. Wenn dies nicht möglich ist, kann man die Daten per Hash-Verfahren auf die Knoten verteilen. Hier beginnen die Herausforderungen: Quasi alle relationalen Datenbanken unterstützen Joins, die dazu führen können, dass Datensätze von unterschiedlichen Knoten miteinander verknüpft werden müssen. Dies ist über ein Netzwerk viel teurer als lokal. Außerdem werden aus lokalen Transaktionen nun verteilte Transaktionen, die eine Reihe neuer Probleme mit sich bringen.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Linux und macOS: Kommandozeile mit Lernspielen meistern

In diesen kurzweiligen Spielen erkunden Sie magische Königreiche, klären einen Mord auf und lernen nebenbei Linux oder macOS per Kommandozeile zu bedienen.

Neun Drucker mit Tinte oder Toner im Test

Brauchen Sie einen günstigen Heimdrucker oder ein Tintentankmodell für die Familie? Unsere c’t-getestete Druckerauswahl hilft bei der Entscheidung.

Vermögensaufbau für den Nachwuchs: Die besten Strategien

Selbst aus kleinen, regelmäßig angelegten Beträgen kann ein nennenswertes Finanzpolster für Ihre Kinder entstehen – wenn Sie typische Fehler vermeiden.

Smart Home: Alles, was Einsteiger über Home Assistant wissen müssen

Home Assistant ist ein mächtiges Werkzeug, um das smarte Zuhause zu steuern. Wir erklären in diesem umfangreichen Kompendium die Basisfunktionen.

3D-Druck: Tipps und Tricks zum Slicen

Kniffe aus der Make-Redaktion für schönere, stabilere und schnellere 3D-Drucke.

Collabora Office: LibreOffice light im Test

Die neue Offline-Variante des auf LibreOffice basierenden Pakets Collabora Online für Windows, Linux und macOS benötigt weder Cloudspeicher noch Server.