Stromausfall bremst Amazons Cloud aus

Ein Fehler in einem Hochspannungsverteiler hat Teile von Amazons Rechenzentrum in Nord Virginia für zwei Stunden lahmgelegt. Die Notstromversorgung funktionierte wegen mehrerer Pannen nicht korrekt.

In Pocket speichern vorlesen Druckansicht 200 Kommentare lesen
Lesezeit: 2 Min.
Von
  • Christian Kirsch

Am Abend (US-Zeit) des 14. Juni fiel in Nord-Virginia eine AWS-Verfügbarkeitszone (availability zone) für rund zwei Stunden komplett aus. Ursache war der Defekt eines Kabels in einem Hochspannungsverteiler. Nach Amazons Angaben sei zwar das Notstromsystem korrekt angesprungen, dessen primärer Generator habe sich jedoch überhitzt.

Daraufhin sei der zweite Generator angelaufen, der dann um 20:57 Uhr pazifischer Zeit wegen eines Konfigurationsfehlers bei einem Schalter ausfiel. Folglich hätten die dortigen Instanzen des EC2-Dienstes (Elastic Cloud Computing) und die EBS-Volumes (Elastic Block Store) zu diesem Zeitpunkt die Stromversorgung verloren. Kunden, die mehrere Verfügbarkeitszonen nutzen, hätten zwar "bedeutsame" Unterbrechungen vermieden. Alle, die sich jedoch auf diese eine Zone verlassen hatten, mussten warten, bis die Stromversorgung um 22:19 Uhr lokaler Zeit wieder hergestellt war.

Um kurz vor 23 Uhr seien die meisten EC2-Instanzen wieder gelaufen. Erst zwei Stunden später seien jedoch auch die meisten EBS-Volumes wieder zugänglich gewesen. Sie sind jedoch als "beschädigt" markiert und bis zu einer Reparatur durch die Kunden nicht für die üblichen I/O-Prozesse nutzbar.

Ausgefallen war auch ein von Amazon selbst für Metadaten genutzter EBS-Speicher. Er fuhr durch den Stromausfall nicht sauber herunter. Dadurch sei das Umschalten auf seine Replikate in anderen Verfügbarkeitszonen nicht möglich geworden.

Das Unternehmen kündigte an, als Lehre aus dieser Erfahrung seine Replikationstechnik zu modifizieren. Außerdem habe es alle Schalter der Notstromgeneratoren weltweit geprüft und diese Konfigurationstests in seine regelmäßigen Prüf- und Überwachungsprozesse integriert.

Im August 2011 hatte ein Stromausfall eine AWS-Verfügbarkeitszone in Irland lahmgelegt. Damals waren die Notstromgeneratoren nicht angesprungen, da sie ihre Phase nicht synchronisieren konnten. Einige EBS-Nutzer hatten seinerzeit große Schwierigkeiten, ihre Volumes wieder in Betrieb zu nehmen, da ihr Zustand nicht genau feststellbar war.

Verfügbarkeitszonen sind die kleinste regionale Einheit der AWS-Rechenzentren. Jede dieser Zonen ist von den anderen isoliert. Zu einer AWS-Region gehört mindestens eine Verfügbarkeitszone. Zurzeit gibt es acht Regionen, davon eine europäische in Irland. Amazon sichert zu, dass jede Region zu 99,95 Prozent verfügbar ist. Als nicht verfügbar gilt sie, wenn mindestens zwei Verfügbarkeitszonen in ihr ausgefallen sind. (ck)