So nicht: Wie sich ein Netzbetreiber in den Totalausfall manövriert hat

26 Stunden lang sind die Kunden eines großen Netzbetreibers offline. Damit auch Notruf, Banken, Kassen. 2 Jahre später wird deutlich, was schiefgelaufen ist.

139

(Bild: Daniel AJ Sokolov)

23.07.2024, 05:42 Uhr

Lesezeit: 11 Min.

Von

Daniel AJ Sokolov

Totalausfall bei Rogers Networks: Am Morgen des 8. Juli 2022 sind zwölf Millionen Kunden des kanadischen Telecom-Marktführers plötzlich offline, Mobilfunk- und Festnetz-Nutzer gleichermaßen. 26 Stunden lang können sie nicht telefonieren, keine Daten übertragen, ja nicht einmal Notrufe absetzen. Geschäfte können nichts verkaufen, weil die Kassen streiken. Geldautomaten sind ebenso außer Betrieb wie die Überweisungssysteme der Banken. Der Schaden für Kanadas Volkswirtschaft geht in die Milliarden. Bei der Regierung Kanadas schrillen die Alarmglocken, sie beauftragt eine Untersuchung.

Zwei Jahre später veröffentlicht die Regierungsbehörde CRTC (Canadian Radio-television and Telecommunications Commission) eine Zusammenfassung eines Berichts der Telecom-Beratungsfirma Xona Partners. (Die vollständige Version wird derzeit noch um Geschäftsgeheimnisse bereinigt und später veröffentlicht, wie die Behörde heise online mitgeteilt hat.) Das Dokument legt den Finger in gleich drei Wunden: Resilienz, Change Management und Krisenmanagement. Der Fachmann staunt, der Laie wundert sich.

Videos by heise

Technisch gesehen lag eine Voraussetzung für den Totalausfall darin, dass Rogers ein einheitliches IP-Kernnetz für Festnetztelefonie, Internet und Mobilfunk hatte, das für das Routing von Daten innerhalb der eigenen Systeme, den Austausch mit anderen Netzbetreibern sowie die Verbindung zum öffentlichen Internet unabdingbar war. Einheitliche ("konvergente") Kernnetze für Mobil- und Festnetz sind branchenüblich, weil sie leistungsfähig und billiger sind – allerdings bilden sie einen Single Point of Failure. Und so ließ der Zusammenbruch des Kernnetzes alle Telecom-Dienste des kanadischen Marktführers gleichzeitig zusammenbrechen.

In den Wochen vor dem 8. Juli 2022 arbeitete Rogers an einem siebenphasigen Upgrade seines IP-Kernnetzes. Die ersten fünf Phasen absolvierten die Netztechniker auch. Doch am 8. Juli stand Phase 6 an, ein Update von Routern (distribution routers), die Verkehr zwischen den Nutzern (access layer) und dem Kernnetz abwickeln. Eine Aufgabe der Distribution Router ist, anhand vorgegebener Regeln (access control list) zu entscheiden, welche Daten sie wie weiterleiten.

Kardinalsünden

Im Zuge des Updates unterlief Rogers der kapitale Fehler: Die Access Control Lists wurden einfach gelöscht. Damit reichten die Distribution Router unbeschränkt Anweisungen zur Verarbeitung von Datenpaketen (IP routing data) an Router im Kernnetz weiter. Dort soll eine vorgegebene Mengenbeschränkung die Router vor Überlastung schützen: prasseln so viele Datenpakete auf die Router ein, dass sie die Menge nicht verarbeiten können, müssen sie Datenpakete wegschmeißen. Doch leider fehlte bei Rogers Networks diese Mengenbeschränkung. Die Router im Kernnetz verließen sich darauf, dass die Distribution Routern schon nicht zu viel Routing Data schicken würden. Als diese aber eine Lawine auf das Kernnetz losließen, brachen die dortigen Router nach wenigen Minuten unter der Last zusammen.

Alles stand still.

Die Löschung der Access Control Lists war ein gut gemeiner, aber unkluger Versuch, die Konfiguration der Distribution Router aufzuräumen. "Das Change Management, zu dem vorhergehende Überprüfung der zu verändernden Parameter gehört, hat dabei versagt, diesen Fehler aufzuzeigen", hält der Bericht fest.

Im Zuge der Vorbereitung hatte Rogers das siebenphasige Update des Kernnetzes als Unterfangen mit hohem Risiko eingestuft. Nachdem Phase für Phase aber alles gut gelaufen war, verlieh der Riskobewertungs-Algorithmus der sechsten Phase das Prädikat "geringes Risiko". Damit waren die Mitarbeiter nicht zu besonderer Vorsicht angehalten; sie mussten keine Genehmigung aus höheren Managementrängen einholen und die Änderungen vor deren Rollout in das Produktivsystem auch keinen Labortests unterziehen.

Nun war das Kind also in den Brunnen gefallen, und die wackeren Netztechniker mussten es schnell wieder herausholen. Dafür gibt es ein Wartungsnetz (management network), also ein separates Netz, das bestimmten Mitarbeitern Zugriff auf die Router erlaubt, um sie zu warten, Fehler zu erkennen und beheben, sowie gegebenenfalls die Geräte neu zu booten. Auch und gerade dann, wenn das für den eigentlichen Traffic zuständige Netz darniederliegt.

Würde man meinen. Rogers Management Network war so aufgesetzt, dass es ebenfalls auf das IP-Kernnetz angewiesen war. Damit konnten Netztechniker von außen nicht auf die abgestürzten Router zugreifen. Gleichzeitig fehlte jede redundante Anbindung durch fremde Datenleitungen. Rogers verließ sich ganz und gar auf die eigenen Leitungen – das verzögerte die Wiederinbetriebnahme erheblich, weil die Mitarbeiter persönlich zu den Routern fahren mussten.

Das Problem der SIM-Karten

Bloß wussten sie zunächst nicht, was los war, und warum, weil Rogers Mobilfunknetz ja nicht funktionierte. Dass wichtige Mitarbeiter keine SIM-Karten anderer Netzbetreiber in der Tasche hatten, um im Fall des Falles mit einander kommunizieren zu können, setzt der Sache die Krone auf. Solche Vorkehrungen sind in Branchen mit Kritischer Infrastruktur seit Jahrzehnten üblich, nicht bloß in der Telecom-Branche. Doch bei Rogers mussten erst Boten mit SIM-Karten ausgeschickt werden, um die für Krisenmanagement und Schadensbehebung zuständigen Mitarbeiter zu erreichen. Das nahm weitere wertvolle Zeit in Anspruch.

Die Folgen waren übel. 14 (vierzehn) Stunden lang hatten die Netztechniker keinen Zugriff auf die Logdateien. Daher konnten sie nicht eruieren, warum das Netz überhaupt kaputt war. Zu allem Überdruss waren an dem Tag mehrere Konfigurationsänderungen erfolgt. Somit war zunächst unklar, was den Zusammenbruch verursacht hatte. Die Wahl fiel zunächst auf eine Änderung, die tatsächlich nicht verantwortlich war. Entsprechend half es nicht, diese unschuldige Änderung rückgängig zu machen. Wieder war wertvolle Zeit vergeudet. Erst als der eigentliche Fehler gefunden war, konnten die Mitarbeiter die Ablaufpläne richtig abarbeiten und das Netz wieder auf die Beine stellen.

Lesen Sie auch

Hozhaus; Arbeiter steht auf hoher Leiter und spannt ein Kabel zum Dach des Gebäudes, im Hintergrund Berge

Kanada: Indigene kaufen Netzbetreiber für elffache Fläche Deutschlands

Nicht betroffen war übrigens das Funknetz. Die Mobiltelefone von Rogers-Kunden hatten also üblichen Empfang – bloß konnten sie damit nichts anfangen, weil die Übertragung am fehlenden Kernnetz scheiterte. SMS, Telefonate, Daten – nichts funktionierte. Die Mobilfunksender strahlten munter ihr nutzlos gewordenes Signal ab.

Leider hat diese Konstellation eine üble Nebenwirkung: Weil die Endgeräte das Signal des Rogers-Netzes empfingen, versuchten sie gar nicht erst, sich bei anderen Mobilfunknetzen anzumelden. Dort hätten sie zwar nicht normal telefonieren oder Daten übertragen können, aber immerhin wären über die fremden Netze Notrufe möglich gewesen. Kunden hätten ihre SIM-Karten entnehmen beziehungsweise E-SIMs deaktivieren müssen, um vielleicht Notrufe absetzen zu können; doch wissen das nur die wenigsten Verbraucher.

Die zehn Empfehlungen

Zehn Empfehlungen haben die Autoren des Berichts für Telecom-Netzbetreiber ausgearbeitet:

Router gegen Überlastung schützen
Das Management Network physisch und logisch vom Nutzdatennetz trennen
Backup-Anschlüsse durch andere Netzbetreiber für wichtige Netzbereiche
Konfigurationsänderungen vor Umsetzung prüfen, unter Einbeziehung verschiedener Abteilungen (engineering, operations, project management) sowie, bei Kritischer Infrastruktur, der Lieferanten
Labortests unter realistischen Bedingungen für Konfigurationsänderungen vor deren Umsetzung
Nicht zu viele Änderungen auf einmal
Automatische Rücknahme gescheiterter Änderungen
Alarmmüdigkeit vermeiden (Konfigurationsänderungen sollten nur dann Alarm auslösen, wenn es sich um wichtige Änderungen handelt.)
Mitarbeitern SIM-Karten anderer Netze geben, zwecks Erreichbarkeit bei Netzausfall
Netzwerkausfälle simulieren und Abhilfemaßnahmen üben

Die schlechte Nachricht

Leider gibt es in der Telecom-Branche mehrere Trends gleichzeitig, die die Verlässlichkeit und Resilienz der Netze unterminieren. "Dazu gehören die Entwicklung hin zu Netzplattformen in der Cloud, Virtualisierung und Softwareisierung von Netzen, zunehmender Einsatz Künstlicher Intelligenz für automatische Netzkonfiguration, Vorbereitung auf IT-Sicherheit im Zeitalter von Quantencomputern (post-quantum security) und die Konvergenz terrestrischer und anderer Netze", hält Xona Partners fest und leitet daraus zusätzliche Empfehlungen ab, für Technik und Prozessoptimierung:

Videos by heise

Technische Empfehlungen:

Erdnahe Satelliten sollen als Backup-Anbindung dienen, und über direkte Verbindung zu handelsüblichen Smartphones Notrufe ermöglichen.
Der Standardisierungsverband 3GPP arbeitet an Vorkehrungen für Mobilfunk-Roaming im Katastrophenfall; Netzbetreiber sollen sich auf deren Umsetzung vorbereiten.
Netzbetreiber sollen überlegen, Apps als Alternative zu SMS/MMS oder Telefonaten vorzusehen, auch für Notrufe. Das würde bei Ausfall bestimmter Systeme helfen.
E-SIMs sind programmierbar; daher sollten Netzbetreiber diese Möglichkeit dazu nutzen, bei Ausfällen Roaming in Konkurrenznetzen zu ermöglichen.
Springt im Fall eines Netzausfalls ein Konkurrenznetz ein, kann dieses überlastet werden. Hier können neue Ansätze wie die gemeinsame Nutzung von Netzkapazitäten sowie die Aktivierung von Frequenzspektrum, das für Notfälle reserviert ist, helfen.
Außerdem kann (im Voraus geübte) Zusammenarbeit mit Content Delivery Networks (CDN) und großen Multimediaanbietern (Youtube, Netflix, etc.) dabei helfen, bei Netzproblemen die Datenmengen durch dynamisches Verkehrsmanagement zu reduzieren.
(Mehr) Redundanz bei Anbindung Kritischer Infrastruktur

Auf Prozessebene sollen Reaktionen auf Störungen geübt werden, um Schwachstellen in den Plänen und beim Training aufzudecken. Dazu gehören auch die Erhebung von Kennzahlen (key performance indicators, KPI) sowie klare Rollenverteilungen in der Belegschaft. Netzbetreiber sollten im Voraus berechnen, welche finanziellen Auswirkungen Netzausfälle für sie haben können. Das hilft, entsprechende Ressourcen bereitzustellen und schlussendlich Image und finanzielle Stabilität zu schützen. Während eines Netzausfalls sollen Anbieter die Öffentlichkeit darüber informieren, wie sie Notrufe absetzen und Warnmitteilungen empfangen können.

Rogers reagiert

Rogers Networks hat eine Reihe von Maßnahmen egriffen. Die Router werden fortan gegen Überlastung durch IP Routing Data geschützt. Es gibt jetzt auch ein getrenntes Management Network mit redundanten Anbindungen seitens unabhängiger Netzbetreiber.

Hinzu kommen Änderungen beim Change Management. Ein neuer Algorithmus soll die Risken besser einschätzen, die Zusammenarbeit zwischen verschiedenen Teams im Unternehmen soll verbessert worden sein, Konfigurationsänderungen sollen sowohl vor deren Installation von neuer Software begutachtet und im Labor ausprobiert werden; und es gibt neue Verfahren für die Einführung neuer Hardware.

Lesen Sie auch

UMTS-Ausstieg ist gut fürs Klima

Künstlerische Darstellung eines roten Festnetztelefons, das leuchtet

Grönland schafft Festnetz-Telefonie ab

Außerdem hat der Netzbetreiber seine Incident Response Playbooks überarbeitet; sie berücksichtigen nun eine größere Auswahl möglicher Ausfallszenarien, definieren Zuständigkeiten besser, sehen bei fehlgeschlagenen Änderungen die automatische Rückkehr zur früheren Konfiguration vor, machen Unterschiede in der Priorität automatisch ausgelöster Alarme, und endlich haben alle Mitarbeiter, die für Incident Response und Krisenmanagement zuständig sind redundante Telekommunikation anderer Netzbetreiber.

Rogers errichtet übrigens ein separates Kernnetz für Mobilfunk, um das Risiko zu senken, dass sowohl Festnetz als auch Mobilfunk gleichzeitig offline gehen. Dieses Projekt ist noch nicht abgeschlossen.

Weitere Empfehlungen für Rogers

Diese Maßnahmen reichen aus Sicht der Autoren des Berichts hin, um Resilienz und Verlässlichkeit zu verbessern und eine Wiederholung des Ausfalls vom Juli 2022 hintanzuhalten. Dennoch haben sie zusätzliche Anregungen parat:

Notfallroaming mit anderen Mobilfunknetzen soll getestet werden, unter mehr Szenarien. Grundsätzlich haben Rogers-Kunden bereits die Möglichkeit, Notrufe über andere Netze abzusetzen - was aber nur Eingeweihten hilft, wenn das Rogers-Funknetz arbeitet, das Übertragungsnetz aber nicht (wie im Juli 2022 geschehen), weil sich die Handys nicht automatisch mit den anderen Netzen verbinden. Sie sind ja schon mit einem Netz verbunden, wenn auch mit einem funktionsunfähigen.

Als Vorbereitung auf zukünftige Störungen soll Rogers ein Verfahren zur detaillierten Analyse ausarbeiten, um Auswirkungen, Ursache(n) und Abhilfemaßnahmen besser identifizieren zu können. Die gewonnen Erkenntnisse soll Rogers dann mit anderen Netzbetreibern teilen, damit sich auch diese besser rüsten können. Tests von Konfigurationsänderungen sollen strenger und umfassender werden. Dazu seien weitere Testwerkzeuge notwendig, zumal sich die Netzwerktechnik laufend weiterentwickelt. Übungen des Incident Management soll Rogers erweitern, und seine Kunden besser darüber informieren, wie sie im Falle einer Netzstörung Notrufe absetzen können.