Facebook-Ausfall: "Alles ist sehr schnell gegangen"

Facebooks Infrastruktur-Chef verrät, was bei dem weltweiten Ausfall am Montag alles schiefgegangen ist: ein hausgemachter Fehler und zu viel Sicherheit.

185

(Bild: Daniel AJ Sokolov)

06.10.2021, 19:01 Uhr

Lesezeit: 5 Min.

Von

Volker Briegleb

Facebook-Ausfall: "Alles ist sehr schnell gegangen"

Nach dem weltweiten Ausfall von Facebook, Instagram und Whatsapp hat das Unternehmen weitere Einzelheiten zu den Hintergründen mitgeteilt. "Das war der schlimmste Ausfall seit Jahren", erklärte CEO Marc Zuckerberg in einem Posting vom Dienstagabend. "Wir haben die vergangenen 24 Stunden mit Nachbesprechungen verbracht, wie wir unsere Systeme besser gegen solche Ausfälle sichern können."

Die gute Absicherung der Systeme hat sich unterdessen als Teil des Problems herausgestellt. Das geht aus einem ausführlichen Blogpost von Facebooks Vizepräsident für Entwicklung und Infrastruktur Santosh Janardhan hervor, in dem er den Hergang der Ereignisse erklärt. Demnach begann alles mit Routinearbeiten am internen Netzwerk – und einem tödlichen Kommando.

Routinearbeiten

Facebooks internes Netz verbindet sämtliche Standorte sowie die großen und kleinen Rechenzentren miteinander. Dieses Netz ist wiederum über Router mit dem Internet verbunden. Diese Router schicken die Anfragen von außen an die richtigen Stellen im internen Netz. Für Routinearbeiten wie Software-Updates oder die Erneuerung von Hardware sei es üblich, dass Teile des internen Netzes vorübergehen abgeschaltet werden, schreibt der Facebook-Manager.

"Hier lag auch die Ursache für den gestrigen Ausfall", erklärt Janardhan. "Während einer dieser Routine-Wartungsarbeiten wurde ein Befehl abgesetzt, mit dem die Verfügbarkeit des weltweiten Backbones bewertet werden sollte, der aber unbeabsichtigterweise sämtliche Verbindungen in unserem Backbone-Netz gekappt und somit Facebooks Rechenzentren weltweit vom Netz genommen hat."

Videos by heise

Eigentlich seien die Systeme so ausgelegt, dass die Nutzung solch kritischer Befehle überwacht wird, erläutert Janardhan weiter. "Aber ein Fehler im Überwachungsmechanismus hat diesen daran gehindert, die Ausführung des Befehls zu unterbinden." So seien alle Server und die Verbindungen zum Internet getrennt worden. "Und dieser vollständige Verbindungsverlust hat ein zweites Problem verursacht, das die Lage noch verschlimmert hat."

Facebooks DNS-Server, die ihre Adressen über das Border Gateway Protocol (BGP) annoncieren, stehen an kleineren Standorten. "Um einen verlässlichen Betrieb zu sichern, stellen unsere DNS-Server das Annoncieren ein, wenn sie selbst keine Verbindung zu den Rechenzentren haben", erläutert Janardhan. Bei dem jüngsten Ausfall war der gesamte Backbone außer Betrieb, weshalb die Routen für alle Facebook-Standorte zurückgezogen wurden.

Totalverlust

"Im Endergebnis waren unsere DNS-Server nicht mehr erreichbar, obwohl sie noch funktionierten", bilanziert Janardhan. "Damit war es für den Rest der Welt unmöglich, unsere Server zu finden." Alles sei sehr schnell gegangen. Und weil die internen Verbindungen gekappt waren, konnten die Admins auch die betroffene Hardware nicht erreichen. "Zweitens hat der Totalverlust der DNS auch viele unserer internen Tools lahmgelegt, die wir bei solchen Vorfällen normalerweise für die Analyse und Reparatur einsetzen."

Also hat Facebook seine Admins losgeschickt, damit sie die Probleme vor Ort in den Griff bekommen. Das hat etwas gedauert, weil die Rechenzentren streng gesichert sind. "Da kommt man nicht so leicht rein", erklärt Janardhan. "Und wenn man drin ist, stehen da Hardware und Router, die schwierig zu modifizieren sind, selbst wenn man direkten Zugang hat." Es hat also ein bisschen gedauert, bis die Admins vor Ort waren und Zugriff auf die Server hatten.

Hoher Preis für Sicherheit

Janardhan räumt ein, dass das eigene Sicherheitskonzept die Lösung des Problems gebremst hat. "Wir haben weitreichende Maßnahmen getroffen, um unsere Systeme gegen unbefugte Zugriffe zu schützen", erklärt Janardhan. Es sei "interessant" zu beobachten gewesen, "dass diese Sicherheitsmaßnahmen im Weg standen, als wir einen Ausfall beheben mussten, der nicht durch böswillige Akteure verursacht wurde, sondern einen hausgemachten Fehler."

Der Infrastrukturchef hält den Preis, den er für die hohe Sicherheit zahlt, dennoch für angemessen: "Ich glaube, dass es das wert ist – eine deutlich erhöhte Sicherheit für den täglichen Betrieb gegen eine langsamere Erholung bei einem hoffentlich extrem seltenen Ereignis wie diesem."

Als die Router wieder liefen, konnten die Admins nicht alles sofort wieder einschalten, sondern mussten die betroffenen Dienste langsam hochfahren, um die Hardware nicht sofort mit Trafficspitzen zu überlasten. "Einzelne Rechenzentren hatten zudem Dellen im Stromverbrauch im zweistelligen Megawattbereich gemeldet", erklärt Janardhan. "Das plötzlich umzudrehen wäre ein Risiko für die elektrischen Systeme und die Caches gewesen."

Insgesamt sei das Team aber durch regelmäßige Notfallübungen gut auf diese Krise vorbereitet gewesen, meint der Manager. "Während wir bei unseren Übungen einen weltweiten Ausfall des Backbones bisher noch nicht simuliert haben, werden wir ab jetzt mit Sicherheit einen Weg finden, solche Szenarien zu üben." Letztendlich seien alle Dienste "vergleichsweise schnell" wieder am Netz gewesen – eine Einschätzung, die angesichts eines sechsstündigen globalen Totalausfalls etwas optimistisch scheint. (vbr)