So nicht: Wie sich ein Netzbetreiber in den Totalausfall manövriert hat
26 Stunden lang sind die Kunden eines großen Netzbetreibers offline. Damit auch Notruf, Banken, Kassen. 2 Jahre später wird deutlich, was schiefgelaufen ist.
Totalausfall bei Rogers Networks: Am Morgen des 8. Juli 2022 sind zwölf Millionen Kunden des kanadischen Telecom-Marktführers plötzlich offline, Mobilfunk- und Festnetz-Nutzer gleichermaßen. 26 Stunden lang können sie nicht telefonieren, keine Daten übertragen, ja nicht einmal Notrufe absetzen. Geschäfte können nichts verkaufen, weil die Kassen streiken. Geldautomaten sind ebenso außer Betrieb wie die Überweisungssysteme der Banken. Der Schaden für Kanadas Volkswirtschaft geht in die Milliarden. Bei der Regierung Kanadas schrillen die Alarmglocken, sie beauftragt eine Untersuchung.
Zwei Jahre später veröffentlicht die Regierungsbehörde CRTC (Canadian Radio-television and Telecommunications Commission) eine Zusammenfassung eines Berichts der Telecom-Beratungsfirma Xona Partners. (Die vollständige Version wird derzeit noch um Geschäftsgeheimnisse bereinigt und später veröffentlicht, wie die Behörde heise online mitgeteilt hat.) Das Dokument legt den Finger in gleich drei Wunden: Resilienz, Change Management und Krisenmanagement. Der Fachmann staunt, der Laie wundert sich.
Technisch gesehen lag eine Voraussetzung für den Totalausfall darin, dass Rogers ein einheitliches IP-Kernnetz für Festnetztelefonie, Internet und Mobilfunk hatte, das für das Routing von Daten innerhalb der eigenen Systeme, den Austausch mit anderen Netzbetreibern sowie die Verbindung zum öffentlichen Internet unabdingbar war. Einheitliche ("konvergente") Kernnetze für Mobil- und Festnetz sind branchenüblich, weil sie leistungsfähig und billiger sind – allerdings bilden sie einen Single Point of Failure. Und so ließ der Zusammenbruch des Kernnetzes alle Telecom-Dienste des kanadischen Marktführers gleichzeitig zusammenbrechen.
In den Wochen vor dem 8. Juli 2022 arbeitete Rogers an einem siebenphasigen Upgrade seines IP-Kernnetzes. Die ersten fünf Phasen absolvierten die Netztechniker auch. Doch am 8. Juli stand Phase 6 an, ein Update von Routern (distribution routers), die Verkehr zwischen den Nutzern (access layer) und dem Kernnetz abwickeln. Eine Aufgabe der Distribution Router ist, anhand vorgegebener Regeln (access control list) zu entscheiden, welche Daten sie wie weiterleiten.
Kardinalsünden
Im Zuge des Updates unterlief Rogers der kapitale Fehler: Die Access Control Lists wurden einfach gelöscht. Damit reichten die Distribution Router unbeschränkt Anweisungen zur Verarbeitung von Datenpaketen (IP routing data) an Router im Kernnetz weiter. Dort soll eine vorgegebene Mengenbeschränkung die Router vor Überlastung schützen: prasseln so viele Datenpakete auf die Router ein, dass sie die Menge nicht verarbeiten können, müssen sie Datenpakete wegschmeißen. Doch leider fehlte bei Rogers Networks diese Mengenbeschränkung. Die Router im Kernnetz verließen sich darauf, dass die Distribution Routern schon nicht zu viel Routing Data schicken würden. Als diese aber eine Lawine auf das Kernnetz losließen, brachen die dortigen Router nach wenigen Minuten unter der Last zusammen.
Alles stand still.
Die Löschung der Access Control Lists war ein gut gemeiner, aber unkluger Versuch, die Konfiguration der Distribution Router aufzuräumen. "Das Change Management, zu dem vorhergehende Überprüfung der zu verändernden Parameter gehört, hat dabei versagt, diesen Fehler aufzuzeigen", hält der Bericht fest.
Im Zuge der Vorbereitung hatte Rogers das siebenphasige Update des Kernnetzes als Unterfangen mit hohem Risiko eingestuft. Nachdem Phase für Phase aber alles gut gelaufen war, verlieh der Riskobewertungs-Algorithmus der sechsten Phase das Prädikat "geringes Risiko". Damit waren die Mitarbeiter nicht zu besonderer Vorsicht angehalten; sie mussten keine Genehmigung aus höheren Managementrängen einholen und die Änderungen vor deren Rollout in das Produktivsystem auch keinen Labortests unterziehen.
Nun war das Kind also in den Brunnen gefallen, und die wackeren Netztechniker mussten es schnell wieder herausholen. Dafür gibt es ein Wartungsnetz (management network), also ein separates Netz, das bestimmten Mitarbeitern Zugriff auf die Router erlaubt, um sie zu warten, Fehler zu erkennen und beheben, sowie gegebenenfalls die Geräte neu zu booten. Auch und gerade dann, wenn das für den eigentlichen Traffic zuständige Netz darniederliegt.
Würde man meinen. Rogers Management Network war so aufgesetzt, dass es ebenfalls auf das IP-Kernnetz angewiesen war. Damit konnten Netztechniker von außen nicht auf die abgestürzten Router zugreifen. Gleichzeitig fehlte jede redundante Anbindung durch fremde Datenleitungen. Rogers verließ sich ganz und gar auf die eigenen Leitungen – das verzögerte die Wiederinbetriebnahme erheblich, weil die Mitarbeiter persönlich zu den Routern fahren mussten.
Das Problem der SIM-Karten
Bloß wussten sie zunächst nicht, was los war, und warum, weil Rogers Mobilfunknetz ja nicht funktionierte. Dass wichtige Mitarbeiter keine SIM-Karten anderer Netzbetreiber in der Tasche hatten, um im Fall des Falles mit einander kommunizieren zu können, setzt der Sache die Krone auf. Solche Vorkehrungen sind in Branchen mit Kritischer Infrastruktur seit Jahrzehnten üblich, nicht bloß in der Telecom-Branche. Doch bei Rogers mussten erst Boten mit SIM-Karten ausgeschickt werden, um die für Krisenmanagement und Schadensbehebung zuständigen Mitarbeiter zu erreichen. Das nahm weitere wertvolle Zeit in Anspruch.
Die Folgen waren übel. 14 (vierzehn) Stunden lang hatten die Netztechniker keinen Zugriff auf die Logdateien. Daher konnten sie nicht eruieren, warum das Netz überhaupt kaputt war. Zu allem Überdruss waren an dem Tag mehrere Konfigurationsänderungen erfolgt. Somit war zunächst unklar, was den Zusammenbruch verursacht hatte. Die Wahl fiel zunächst auf eine Änderung, die tatsächlich nicht verantwortlich war. Entsprechend half es nicht, diese unschuldige Änderung rückgängig zu machen. Wieder war wertvolle Zeit vergeudet. Erst als der eigentliche Fehler gefunden war, konnten die Mitarbeiter die Ablaufpläne richtig abarbeiten und das Netz wieder auf die Beine stellen.
Nicht betroffen war übrigens das Funknetz. Die Mobiltelefone von Rogers-Kunden hatten also üblichen Empfang – bloß konnten sie damit nichts anfangen, weil die Übertragung am fehlenden Kernnetz scheiterte. SMS, Telefonate, Daten – nichts funktionierte. Die Mobilfunksender strahlten munter ihr nutzlos gewordenes Signal ab.
Leider hat diese Konstellation eine üble Nebenwirkung: Weil die Endgeräte das Signal des Rogers-Netzes empfingen, versuchten sie gar nicht erst, sich bei anderen Mobilfunknetzen anzumelden. Dort hätten sie zwar nicht normal telefonieren oder Daten übertragen können, aber immerhin wären über die fremden Netze Notrufe möglich gewesen. Kunden hätten ihre SIM-Karten entnehmen beziehungsweise E-SIMs deaktivieren müssen, um vielleicht Notrufe absetzen zu können; doch wissen das nur die wenigsten Verbraucher.