Wie Admins Ceph-Probleme identifizieren und beheben können

Für viele Ceph-Probleme ist dessen Objektspeicher RADOS verantwortlich. Um zu erkennen, was nicht stimmt, kann man die mitgelieferten Tools sinnvoll einsetzen.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 19 Min.
Von
  • Martin Gerhard Loschwitz
Inhaltsverzeichnis
Mehr zum Thema Ceph

Als skalierbare Speicherlösung für dynamische Umgebungen hat sich Ceph längst etabliert. Was einst als verrückte Idee im Kopf von Sage Weil begann, tritt heute in Ausschreibungen wie selbstverständlich gegen klassische Speicherangebote der Konkurrenz an – und hat dabei regelmäßig die Nase vorn. In den meisten Fällen ist dabei der "Single Point of Administration" das Zünglein an der Waage: Jeder konventionelle Speicher ist irgendwann voll und lässt sich nicht mehr erweitern, doch ein Ceph-Cluster skaliert fast unendlich. Zugleich genießt Ceph den Ruf, ausgesprochen stabil zu sein: Viele Administratoren sind beinahe verwundert, weil ein einmal installierter Ceph-Cluster ihnen über Jahre keinen Kummer bereitet. Wenn doch mal etwas schiefgeht, ist die Panik allerdings groß.

Aber selbst katastrophenerfahrene Ceph-Admins stehen vor defekten Clustern regelmäßig wie der sprichwörtliche Ochse vorm Berg. Einerseits hat Ceph sich in den vergangenen Jahren an manchen Stellen sehr deutlich verändert. Andererseits legen viele auf dem Markt verfügbare Trainingskurse nur wenig Wert auf das Thema Debugging. Zumal sich komplexe Fehlerszenarien in der künstlichen Umgebung eines Trainings kaum nachstellen lassen – schließlich steht nicht für jeden Kurs ein Multi-Petabyte-Ceph-Cluster zur Verfügung.

Die gute Nachricht: Das notwendige Grundlagenwissen für den souveränen Umgang mit Fehlern in Ceph ist gar nicht so umfangreich, wie es den Anschein hat. Wichtig sind einige wenige Kommandozeilenwerkzeuge sowie die Fähigkeit, deren Ausgabe korrekt zu interpretieren. In Kombination mit etwas Basiswissen rund um RADOS lassen sich die Ursachen für die meisten Probleme schnell identifizieren und beheben – oder zumindest temporär umschiffen, bis die dauerhafte Lösung umsetzbar ist. Dieser Artikel verrät die grundlegenden Details und dient Admins als Hilfe in der Not: Was ist zu tun, wenn Ceph brennt?