Was die Voraussetzungen für den Kaltstart eines Rechenzentrums sind

Für den RZ-Neustart nach einem Totalausfall muss die Infrastruktur auf den Ernstfall vorbereitet werden. Dabei hilft das Site Reliability Engineering.

Artikel verschenken
vorlesen Druckansicht
,
Lesezeit: 26 Min.
Von
  • Frank Benke
Inhaltsverzeichnis

Was wäre wenn? Diese Frage steht am Beginn jedes Business-Continuity-Plans, in dem sich dann unterschiedlichste Methoden der Wiederherstellung um die erdachten Szenarien gruppieren. Hochverfügbarkeit, Backup und Restore haben Hochkonjunktur, garniert mit immer neuen Features, genauso wie immer komplexere IT-Landschaften, deren Resilienz bestenfalls sporadisch getestet wird. Verletzung von Clusterkriterien, explodierende Laufzeiten oder übersehene Abhängigkeiten haben viele Wiederherstellungen in Albträume verwandelt.

Was wäre aber, wenn das in dieser Form nicht mehr interessiert? Wenn die IT-Umgebung so resilient wäre, dass sie in kurzer Zeit wieder auf der grünen Wiese herzustellen wäre? Und sich die klassische Wiederherstellung auf die kritischen Daten konzentrieren könnte? Denn das Zeitalter der Cloud ist geprägt durch die IT-Automatisierung. Auch wenn sie zuweilen weder bewusst noch gezielt eingesetzt wird, ist sie doch integraler Bestandteil vieler populärer Produkte. Zeit, die Automatisierung auch für die Wiederherstellung der IT zu nutzen. Dieser Artikel wird sich auf die strukturellen und organisatorischen Aspekte einer solchen Kaltstartfähigkeit konzentrieren. Ein Implementierungsbeispiel mit Werkzeugen und Methoden liefern die Artikel „Kaltstart eines Rechenzentrums: Die Vorarbeiten“ und „Kaltstart eines Rechenzentrums: Die Umsetzung in der Praxis“.

iX-tract
  • Wird die Unternehmens-IT durch einen Cyberangriff lahmgelegt, gilt es, den Betrieb schnellstmöglich mit unkorrumpierten Daten und Systemen wieder anzufahren.
  • Klassische Backup- und Recovery-Methoden eignen sich nicht, ein RZ nach einem Totalausfall schnell wieder hochzubringen.
  • Für ein schnelles Anfahren des RZ haben Hyperscaler längst das Site Reliability Engineering ersonnen, das das IT-Service-Management um die Automatisierung und die Einführung von Error Budgets erweitert.
  • Das Site Reliability Engineering ersetzt operative Prozesse durch technische Implementierungen und bewirkt damit einen Paradigmenwechsel.
  • Wichtige Bausteine des Site Reliability Engineering sind nach vorn verlagerte systemgestützte Dokumentationen, Standardisierungen, logische Trennungen und Zonenkonzepte.
Mehr zu IT-Security
Frank Benke

Frank Benke ist Leiter der operativen IT in der HAHN Automation Group und verantwortlich für den Betrieb einer globalen Infrastruktur in neun Ländern.

Das derzeit vielleicht am häufigsten beschworene Bedrohungsszenario ist der erfolgreiche Ransomwareangriff. Das Besondere an ihm ist der umfassende Verlust der Vertrauenswürdigkeit der kompromittierten Umgebung. Sehr viele andere Szenarien aus dem Business-Continuity-Management lassen sich mit einem Bruchteil der Maßnahmen aus dem Szenario Ransomware behandeln, mit Ausnahme des Verlusts von Hardware.

Das war die Leseprobe unseres heise-Plus-Artikels "Was die Voraussetzungen für den Kaltstart eines Rechenzentrums sind". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.