Analyse: Microsoft liefert erste Details zum Ausfall von Teams, Office und Co.
(Bild: Tada Images / Shutterstock.com)
Laut einem vorlĂ€ufigen Post-Incident-Report fĂŒhrte mangelnde QualitĂ€tskontrolle zum Ausfall der cloud-basierten Microsoft-Dienste.
Microsoft hat Informationen zu den Ursachen fĂŒr den Ausfall seiner cloud-basierten Dienste veröffentlicht. Wegen eines Ausfalls im Bereich der Azure Cloud von Microsoft konnte am Mittwochmorgen, den 25. Januar, eine Vielzahl von Nutzenden nicht auf Applikationen und Dienste zugreifen, die ĂŒber diese Plattform gehostet werden. Darunter unter anderem das weit verbreitete Kollaborationswerkzeug Teams, aber auch andere Microsoft 365 Anwendungen wie Outlook, Word, Excel funktionierten in deren Cloud-basierenden Varianten nicht.
Was war passiert?
Zwischen 08:05 Uhr und 13:43 Uhr unserer Zeit stellten Kunden am Mittwoch KonnektivitĂ€tsprobleme fest, die sich in hohen Latenzen, Paketverlusten und Timeouts beim Zugriff auf Azure-Cloud-Ressourcen niederschlugen. Am Tag des Ausfalls nannte Microsoft zunĂ€chst lediglich einen Netzwerk-Change als Ursache des Ausfalls. Zur Behebung wurde dieser zurĂŒck gerollt. Ein vorlĂ€ufiger Post-Incident Report von Microsoft liefert nun weitere Details [1].
Ursache war ein geplanter Change an einem WAN-Router. GemÀà der Information des Herstellers aus Redmond sollte eine IP-Adresse auf dem Router verĂ€ndert werden. Das dazu abgesetzte Kommando an den Router fĂŒhrte zu Nachrichten an alle Router im WAN. Dies fĂŒhrte zu einer Neukalkulation von Weiterleitungsinformationen (Adjacency und Forwarding Tables) auf der Control Plane. Ob es sich um regulĂ€re BGP-Updates handelte, erwĂ€hnt Microsoft nicht. WĂ€hrend dieser Neukalkulation konnten die Router die jeweils hindurch flieĂenden Pakete nicht korrekt weiterleiten. Ob es lediglich ein Lastproblem oder gar ein fehlerhaftes Routing gab, ist dem vorlĂ€ufigen Report noch nicht zu entnehmen.
Fehler wegen mangelnder QualitÀtskontrolle, Reaktion vorbildlich
Der ursĂ€chliche Befehl, der das Problem verursachte, verhĂ€lt sich auf verschiedenen Routern unterschiedlich. Er hatte auf der Routerplattform, auf der er ausgefĂŒhrt wurde, nicht den vollstĂ€ndigen Qualifizierungsprozess durchlaufen â ein klassischer Fehler also wegen fehlender QualitĂ€tskontrollen im Bereich der Netzwerkautomatisierung. Es war jedoch nicht nur Nord/SĂŒd-Traffic zwischen Clients und Azure betroffen, sondern auch die KonnektivitĂ€t zwischen Azure-Regionen und Anbindungen ĂŒber ExpressRoute.
Die Reaktion des Unternehmens war jedoch vorbildlich. Bereits sieben Minuten nach dem Ausfall bemerkte Microsoft die DNS- und WAN-Fehler und fĂŒhrte ein Review der zuvor getĂ€tigten Changes durch. Circa eine Stunde nach Beginn begann ein automatisierter Recovery-Prozess im Netzwerk. Die letzte Netzwerkkomponente nahm um 10:35 Uhr wieder ihre Funktion auf. Aufgrund des WAN-Ausfalls waren jedoch auch Automatisierungssysteme fĂŒr das Monitoring und die automatisierte AuĂerbetriebnahme von nicht korrekt funktionierenden Netzwerkkomponenten auĂer Betrieb. Daher kam es noch bis 13:43 Uhr zu Paketverlusten. Viele Router brauchten noch einen manuellen Neustart, getreu dem Motto "Boot tut gut".
Fazit: FolgemaĂnahmen
Fehler können passieren. Man muss aber daraus lernen. Microsoft hat nun zunĂ€chst Kommandos mit groĂem Impact geblockt und alle AusfĂŒhrungen den "safe change guidelines" unterworfen. Der finale Review des Vorfalls soll innerhalb von vierzehn Tagen nach dem Vorfall veröffentlicht werden.
(jvo [3])
URL dieses Artikels:
https://www.heise.de/-7473885
Links in diesem Artikel:
[1] https://status.azure.com/en-gb/status/history
[2] https://www.heise.de/ix
[3] mailto:jvo@ix.de
Copyright © 2023 Heise Medien