Amazons europäische Cloud läuft großteils, Stottern in den USA

Während es Amazon gelungen ist, die meisten der in Irland betriebenen Instanzen seines EC2-Dienstes wieder zu starten, kam es heute in den frühen Morgenstunden zu einer Unterbrechung in den USA. Betroffen waren Großkunden wie Netflix und Foursquare.

In Pocket speichern vorlesen Druckansicht 93 Kommentare lesen
Lesezeit: 3 Min.
Von
  • Christian Kirsch

Amazon hat am gestrigen Montag kurz vor 22 Uhr seinen EC2-Dienst (Elastic Cloud Computing) in Europa zum großen Teil wieder in Betrieb genommen. 26 Stunden vorher hatte ein Blitzeinschlag in einen Transformator die Cloud-Services lahmgelegt, da auch die Notstromaggregate nicht schnell genug starten konnten.

Offline bleiben bislang alle jene EBS-Volumes (Elastic Block Storage), bei denen nicht klar ist, ob sie sich in einem konsistenten Zustand befinden. Amazon erzeugt deshalb zurzeit Recovery Snapshots von ihnen und stellt sie den betroffenen Kunden zur Verfügung. Dies ist nach Unternehmensangaben "zeitaufwendig": Erste Snapshots sollen in sechs bis acht Stunden verfügbar sein, es könne jedoch bis zu 24 Stunden dauern. Allerdings werden wohl nicht alle aus diesen Snapshots erstellten Volumes konsistent sein, warnt Amazon. Kunden sollten die Integrität des Dateisystems auf jeden Fall durch Einsatz eines geeigneten Werkzeugs sicherstellen, unter Linux etwa mit fsck.

In einigen Fällen hat Amazones EBS-Software fehlerhafte Snapshots erzeugt.

Update: Mit "nicht konsistent" könnte Amazon die Tatsache umschreiben, dass die zum Ausdünnen von EBS-Snapshots verwendete Software fehlerhaft war. Das geht aus einer Mail des Unternehmens an betroffene Kunden hervor, in der es den Bug beschreibt. Beim Zählen der Block-Referenzen innerhalb eines Snapshot seien Teilmengen "ausgelassen" worden. Dadurch habe das Management-System diese Blöcke für nicht benutzt gehalten und sie aus dem Snapshot gelöscht. Im Klartext heißt das: Die in EBS für Datensicherung vorgesehene Technik war fehlerhaft, sodass sie in einigen Fällen defekte Backups erzeugt hat. Der dafür ursächliche Fehler soll inzwischen behoben sein. In den betroffenen Snapshots habe man die fehlenden Blöcke durch leere ersetzt. "Sie können auf dem daraus erzeugten Volume ein Reparaturwerkzeug laufen lassen... In einigen Fällen könnte dies ein funktionierendes Volume herstellen," heißt es in der Mail weiter. Die fehlerhaften Snapshots sind in der AWS-Management-Konsole mit dem Eintrag "Recovery Snapshot snap-xxxx" markiert.

In Amazons US-Cloud brach kurz nach 19.30 Uhr Westküstenzeit (4.30 Uhr MESZ) die Verbindung zwischen dem in North Virginia beheimateten US-EAST1-Cluster und dem Internet ab. Betroffen davon waren unter anderem Großkunden wie der Streaming-Service Netflix, Quora, der Lokalisierungsdienst Foursquare und das Nachrichtenportal Reddit. Diese Unterbrechung war nach rund 40 Minuten behoben. Amazon betreibt in den USA noch eine weitere Cloud-Installation an der Westküste. In Europa gibt es nur die Einrichtung in Irland, für Asien sind Cluster in Singapur und Tokio zuständig.

Üblicherweise wird die Verfügbarkeit eines Systems in "Neunen" angegeben. So stehen fünf Neunen für 99,999 Prozent und damit für "Höchstverfügbar" nach der BSI-Klassifikation (PDF). In dieser Kategorie darf ein System für höchstens sechs Minuten pro Jahr nicht verfügbar sein. Fällt es länger als neun Stunden im Jahr aus, gilt es als "normal verfügbar" (mindestens 99,0 Prozent). Für EC2 verspricht Amazon 99,95 Prozent Verfügbarkeit in jeder Region. Das entspräche einer maximalen Ausfallzeit von nicht einmal fünf Stunden pro Jahr. (ck)