Marktübersicht: Chaos Engineering für die Cloud

Chaos Engineering simuliert Fehler in verteilten Systemen mit dem Ziel, ihre Resilienz zu erhöhen und Administratoren besser auf Ausfälle vorzubereiten.

Artikel verschenken

4

27.03.2025, 08:00 Uhr

Lesezeit: 15 Min.

iX Magazin

Von

Frank Pientka

Marktübersicht: Chaos Engineering für die Cloud
- Chaos in der Praxis
- Die Prinzipien des Chaos Engineering
- Werkzeuge und Wege für das Chaos Engineering
- Werkzeuge vorgestellt
- Chaos Toolkit: Chaos auf dem Host stiften
- Kraken: Chaos in der OpenShift-Installation
- Chaos Mesh: Chaos im Kubernetes-Cluster
- Litmus: Kubernetes-Chaos mit und ohne Support
- Gremlin
- Gemanagte Chaos-Dienste für AWS und Azure
- Fazit
- Vergleichstabelle

Artikel in iX 5/2025 lesen

Je mehr Prozesse und Anwendungen in die Cloud wandern, umso größer wird das Risiko von Ausfällen. Nicht immer muss es zu kompletten Ausfällen ganzer Regionen kommen, aber wenn kritische Dienste ausfallen, kann das große Schäden verursachen. Mit Chaos Engineering lassen sich Fehler in verteilten Systemen simulieren, um sich auf mögliche Ausfallszenarien besser vorzubereiten. Dafür existieren unterschiedliche Werkzeuge.

Das berühmteste unter ihnen ist Chaos Monkey von Netflix. Als großer und weltweiter AWS-Nutzer war Netflix schon recht früh von Ausfällen bei AWS betroffen und hat deshalb Prinzipien und Praktiken entwickelt, wie man Fehler in verteilten Systemen testen und damit besser umgehen kann. Entstanden ist mit Chaos Monkey das erste Werkzeug, das Ausfälle simuliert und die Wirksamkeit von Gegenmaßnahmen prüft. 2011 von Netflix als Open Source veröffentlicht, wurde es zusammen mit ersten Artikeln und Büchern zur Grundlage des Chaos Engineering. Zusammen mit Chaos Kong und Chaos Gorilla bildet Chaos Monkey die Suite Simian Army, die heute aber nur noch von geringer Bedeutung ist, da es mittlerweile ausgereiftere Plattformen und Dienste für Chaos-Experimente gibt.

Ausfälle in verteilten Systemen wie Kubernetes-Clustern oder in der Cloud gehören zum Alltag.
Mit Chaos Engineering können Administratoren kontrolliert Fehler im System simulieren, um deren Auswirkungen und die Wirksamkeit von Schutzmaßnahmen zu testen.
Ziel von Chaos Engineering ist es, verteilte Systeme resilienter zu gestalten und Admins besser auf Ausfälle vorzubereiten.
Werkzeuge helfen, die Chaos-Experimente umzusetzen.
Wichtigste Voraussetzung für einen hohen Nutzen von Chaos Engineering ist eine geeignete Fehlerkultur.

Verwandt mit dem Chaos Engineering sind die Disziplinen Business Continuity and Disaster Recovery (BCDR) und Site Reliability Engineering (SRE). Eine wichtige Grundlage bildet dabei die Automatisierung und das Verwenden von DevOps-Pipelines, um eine Wiederholbarkeit und Nachvollziehbarkeit der Experimente zu gewährleisten. Die DORA-Reports von Google Cloud zeigen, dass immer mehr Unternehmen SRE-Praktiken anwenden, um ihre Resilienz und Zuverlässigkeit über eine geringere Change Failure Rate (CFR) und einen schnellen Time to Restore Service (MTTR) zu verbessern. Neben Büchern und Artikeln zur reinen Wissensvermittlung gibt es Workshops, in denen man die Chaos-Engineering-Techniken einüben kann.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Arbeitsagentur: Wenn die Anmeldung zur Arbeitslosigkeit am System scheitert

Wer Mitmenschen beim digitalen Behördengang unterstützen will, wird von arbeitsagentur.de in den Wahnsinn getrieben. Ein Leidensbericht.

Autark im Ernstfall: Fünf Notfallradios mit Kurbel- und Solarladung im Test

Notfallradios versprechen überlebenswichtige Informationen auch ohne Steckdose und Internet. Wir testen fünf kurbel- und solarbetriebene Modelle.

Blick auf das Infotainment-Systems eines modernen Autos

Infotainment und Fahrassistenz: Was BMW, Mercedes, Volvo und Xpeng bieten

Infotainment- und Assistenzsysteme benötigen schnelle Chips. Eine Stichprobe zeigt, was BMW, Mercedes, Volvo und Xpeng verbauen und was die Software bietet.

Microsoft-Dienste eigenständig ohne Cloud betreiben: Ein Überblick

Es gibt triftige Gründe, Daten und Dienste im eigenen Rechenzentrum zu halten. Und das ist auch mit Microsofts Produkten weiterhin problemlos möglich.

Wärmepumpe und Legionellen: Strategien für hygienisches Warmwasser

Wärmepumpen arbeiten nur dann effizient, wenn der Temperaturhub möglichst gering bleibt. Eine hygienische Warmwasserbereitung dagegen braucht hohe Temperaturen.

Im Funkloch: Wie Smart Meter auch ohne LTE-Empfang online gehen

Der Smart-Meter-Einbau scheitert häufig am schlechten LTE-Empfang. Doch es gibt Alternativen: vorhandene private Internetzugänge, Powerline und LTE450.