Ausfall bei Amazon Web Services: Wenn Managementclients Produktivsysteme stoppen

In komplexen Systemen können kleine Ereignisse fatale Folgen haben. Das bekam Amazon im Dezember 2021 in seiner wichtigsten Cloud-Site zu spüren.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 13 Min.
Von
  • Susanne Nolte
Inhaltsverzeichnis

Tausendmal geht es gut und einmal nicht: Weil eine große Zahl Clients in einem Managementnetz unerwartet die übliche Reaktion auf eine erprobte automatische Skalierung vermissen ließ, gingen bei AWS über Stunden zentrale Cloud-Dienste in die Knie – und das Monitoring gleich mit. Auch die Dienste vieler Kunden waren zeitweise nicht erreichbar.

Als Anfang Dezember etliche Services der AWS-Cloud-Site US-EAST-1 in der Region Northern Virginia ausfielen, standen Operatoren- und Supportteams vor einer schier unlösbaren Aufgabe: Überlastete Router zwischen AWS-Netz und internem Managementnetz hinderten nicht nur die AWS-Dienste an ihrer Ausführung, sondern auch das Service Health Dashboard daran, ordnungsgemäß auf die Stand-by-Region umzuschalten und die Kunden umzuleiten.

Da die ebenfalls betroffenen Monitoringsysteme zudem keine validen Daten mehr lieferten, glich die Suche nach der Fehlerursache der nach der Nadel im Heuhaufen. Und während Kunden ihre Cloud-Ressourcen nicht mehr verwalten konnten und auf Feedback von AWS warteten, konnte dessen Support-Center, das sich ebenfalls auf das betroffene interne Netz stützt, an diesem 7. Dezember sieben Stunden lang weder Auskunft zu Ursache und Dauer der Ausfälle geben noch Tickets erstellen.