Kommentar zum Cloud-Ausfall bei MS: Ist der Patient schon tot oder nur lädiert?

Der jüngste Azure-Ausfall hat vor allem eins gezeigt: Aktuelle SLAs sind keine guten Garantien für Kunden. Die Medizin zeigt, wie wir sie besser denken können.

In Pocket speichern vorlesen Druckansicht 159 Kommentare lesen
Lesezeit: 4 Min.
Von
  • Christoph Puppe

Erst ist die Cloud da, dann ist die Cloud weg. Und oft nur ein bisschen vom einen oder vom anderen. Der – erneute – Anlass für diese grundsätzlichen Betrachtungen ist der teilweise Ausfall von Azure am 25. Januar 2023 um kurz nach 9 Uhr vormittags. Schon nach rund 45 Minuten war der Fehler behoben. Allerdings gab es noch bis mittags Auswirkungen auf die Dienste.

Christoph Puppe

Christoph Puppe ist Principal Enterprise Security Architect und Auditteamleiter für ISO 27001 nach Grundschutz bei NTT DATA Deutschland SE, Mitautor des Grundschutz-Kompendiums und ehemaliger Penetrationstester.

Eine Änderung an einem Router im Microsoft-WAN führte dazu, dass alle anderen Router die Kosten für die Routen neu berechneten und in der Zeit viele Pakete verloren gingen. Ein erheblicher Teil der weltweiten Kundschaft außerhalb von China war betroffen. Und selbst die, die weiter die Dienste nutzen konnten, bemerkten, dass Teilnehmer in Meetings plötzlich verschwanden. Andere hatten keinerlei Auswirkungen auf ihren Arbeitsalltag oder im Privatleben. Aber selbst die Betroffenen hatten keinen vollständigen Ausfall zu ertragen: Die Dienste waren langsam, nur teilweise auch gar nicht erreichbar.

In der Medizin gibt es die YLL, nicht zu verwechseln mit YOLO natürlich. Die Years of Life Lost sind ein Indikator für die Schwere einer Krankheit. Die Berechnung nimmt das Alter der verstorbenen Person und zieht dies von der durchschnittlichen Lebenserwartung ab. Das Ergebnis sagt, wie viele Jahre Lebenszeit die Krankheit kostet. Nicht jede Krankheit tötet, viele erschweren das Leben oder schränken die betroffene Person sehr ein. Dafür gibt es DALY (Disability-Adjusted Life Years).

Die Nutzer der Cloud sind in diesem Vergleich die globale Population und ein Ausfall eines Cloud-Anbieters wie eine globale Pandemie. Lebenszeit geht verloren. Arbeitszeit geht verloren. Und sofern kritische Prozesse auf dem Cloud-Dienst basieren, geht vielleicht auch wirklich Leben verloren. So wie bei der Medizin gibt es auch hier den Unterschied zwischen "Cloud-Verstorben" bei einem Totalausfall inklusive des Endes des Anbieters und nur so stark eingeschränkte Verfügbarkeit, dass Arbeits- und Lebenszeit verloren geht. Ein Beispiel wären Haushaltsgeräte, die plötzlich nicht mehr funktionieren, weil der Hersteller Pleite ist. Wäre schlecht, wenn dies mit Herzschrittmachern passieren würde.

Der viel öftere Fall ist der teilweise Ausfall: also der mehr oder weniger stark eingeschränkte Betrieb eines Cloud-Anbieters. Vergleichbar mit dem DALY der Medizin, geht die Arbeit zwar weiter, aber unter erschwerten Bedingungen. YLL sind in der IT der Totalausfall, dafür haben alle Anbieter entsprechende Garantien. Etwas ungeklärter sind die partiellen Ausfälle. Wenn eine Firma 10.000 Mitarbeiter in Microsoft 365 hat und davon 3.000 eine Stunde lang nicht arbeiten können, welches SLA (Service Level Agreement) ist dann verletzt und wenn ja, wieso?

Was wir für die Bewertung von Anbietern benötigen, ist eine neue Art SLA zu denken, die YLL und DALY betrachtet. Site Reliability Engineering hat hier einige Werkzeuge parat. Zwei davon sind die Service Level Indicators (SLI) für Latenz und HTTP-Code der Server-Antwort. Dabei wird gemessen, wie schnell die Server des Anbieters antworten und ob die Anfrage erfolgreich war. Die Service Level Objectives (SLO) auf diese SLI könnten dann sein, dass die Server mindestens 99 Prozent aller Anfragen erfolgreich und in unter 50 ms beantworten. Aus SLI und SLO zusammen entsteht ein SRE SLA. Keiner der Provider hat allerdings ein solch neumodisches SLA und es gibt auch keine für die Nutzer sichtbaren Statistiken dazu. Für den Kunden ist es so schwierig, Schadensersatz zu erhalten – oder auch nur die Anbieter zu vergleichen.

(fo)