iX 12/2019
S. 114
Wissen
Software-defined Storage

Offsite-Replikation in Ceph: Wege und Werkzeuge

Teamsport

Martin Gerhard Loschwitz

Der Object Storage Ceph beherrscht nur die synchrone Replikation – wer Daten an einen anderen Standort kopieren will, braucht zusätzliche Funktionen.

So manche Technik hat sich im Fahrwasser der Cloud bereits Bahn gebrochen und verfestigt und stellt damit bestehende Geschäftsmodelle auf eine harte Probe. Ein Beispiel dafür ist Ceph: Mit Cloud-Setups zusammen wächst der objektbasierte Storage-Cluster beinahe ohne Grenzen.

Weil es auf Commodity-Hardware setzt, kostet Ceph nur einen Bruchteil dessen, womit klassische SAN-Systeme zu Buche schlagen: Ein PByte Nettokapazität für eine halbe Million Euro ist mit Ceph umstandslos möglich – und kostenlos dazu gibt es die panischen Blicke der Vertreter von NetApp, Dell-EMC und Konsorten, die gegen diese Preise kaum ankommen. Wie verzweifelt man bei den etablierten Storage-Herstellern ist, zeigt sich auch daran, dass diese mittlerweile versuchen, neue Geschäftsfelder anzuzapfen – Net­App etwa geht seit einiger Zeit mit einer Kubernetes-Distribution auf Kundenfang.

Suchen die Vertreter der klassischen Storage-Systeme Argumente gegen Ceph, dauert es meist nicht lange, bis der Begriff Disaster Recovery fällt. In der Tat war Ceph hier ziemlich lange ziemlich blank, denn der Objektspeicher, der Ceph zugrunde liegt, RADOS, beherrscht nur synchrone Replikation. Das indes macht das ­Kopieren von Daten an einen anderen Standort ziemlich kompliziert.

Die Vertreter etablierter Storage-Silos nutzten die fehlende Offsite-Replikation in der Vergangenheit gern als Totschlagargument gegen Ceph, wohl wissend, dass sie für Disaster-Recovery-Setups gleich mehrere Exemplare ihrer Produkte unters Volk bringen würden.

Doch die Welt entwickelt sich weiter und auch bei Ceph hat man sich in den vergangenen Jahren intensiv mit der Replikation hin zu einem anderen Standort beschäftigt. Heute existieren mehrere Wege in Ceph, Daten zwischen Standorten hin- und herzukopieren. Die hängen auch vom genutzten Frontend ab. Grund genug, sich des Themas detailliert anzunehmen. Dieser Artikel beschreibt die Herausforderungen der Replikation in Ceph und wie sie zu meistern sind.

Für Ceph-Admins gibt es mehrere Gründe, sich mit den Themen Offsite-­Replikation und Disaster-Recovery-Setup zu befassen. Erstens sind Cloud-Umgebungen nicht selten geografisch verteilt und etwa in mehrere Zonen gesplittet. Viele Anwender wünschen sich, dass die Daten aus einer Region auch in einer anderen Region verfügbar sind. Das würde jedoch bedeuten, sie zwischen verschiedenen Standorten hin- und herzukopieren.

Warum mehrere Standorte?

Zweitens: Viel häufiger kommt Disaster Recovery als potenzieller Anwendungszweck ins Spiel. Fällt ein einzelner Standort aus, gilt es, die Wiederanlaufzeit so kurz wie möglich zu halten. Das funktioniert nur, wenn die benötigten Daten an einem anderen Standort vorliegen. Auch hier ist das Kopieren der Daten über die Grenzen eines Standortes hinweg notwendig.

Weniger valide ist hingegen ein Ansinnen, das vielen Administratoren beim Thema Ceph und Multi-Standort-Setup ebenfalls einfällt: das Anlegen von Backups. Dass Replikation und Backups nicht dasselbe sind, ist eigentlich eine Binsenweisheit. Trotzdem assoziieren nicht wenige mit Replikation auch das implizite Anlegen von Backups. Zugegeben: Fällt ein Airbus A380 auf ein Rechenzentrum, wirken die replizierten Daten an einem anderen Standort im besten Falle ähnlich wie ein Backup.

Viel häufiger brauchen Admins Backups allerdings, um Missgeschicke zu korrigieren. Löscht ein Nutzer Daten auf dem einen Ceph-Cluster, würde die korrekt konfigurierte Replikation sie auch auf der anderen Seite der Offsite-Replikation verschwinden lassen. Hier gilt wie üblich, dass der Admin eines Ceph-Clusters idealerweise ein eigenes Backup-Konzept verfasst, in dem Offsite-Replikation sicherlich eine Rolle spielen kann. Ersetzen kann sie es aber nicht.

Stretched – den Cluster strecken

Der Kasten „Wie Ceph Daten entgegennimmt und verteilt“ beschreibt, wann Ceph einem Client einen Schreibvorgang bestätigt. Angesichts dessen stellt sich die Frage, wie sich die Offsite-Replikation von Ceph sinnvoll gestalten lässt. Viele Administratoren denken sofort daran, einfach die Knoten eines Ceph-Clusters über mehrere Standorte zu verteilen. Was im ersten Augenblick sinnvoll klingt, stellt sich bald als katastrophale Fehlplanung heraus – und das aus mehreren Gründen (siehe Abbildung 2).

Kommentieren