Cloudflare-Ausfall: Ein Fehler bei Rechteverwaltung mit weitreichenden Folgen
Für den Cloudflare-Ausfall mit heftigen Folgen war kein Angriff, sondern ein interner Fehler ursächlich. Das hat Cloudflare jetzt ausführlich erklärt.
(Bild: Tada Images(Shutterstock.com)
Für den weitreichenden Ausfall bei Cloudflare am Dienstag war eine Änderung an den Zugriffsrechten für eine interne Datenbank verantwortlich, wegen der letztlich eine Datei durch zu viele Einträge zu groß wurde. Diese übergroße Datei wurde dann an das ganze Cloudflare-Netzwerk verteilt, wo sie eine darauf angewiesene Software zum Absturz brachte. Das hat der Internetdienstleister in einem ausführlichen Blogeintrag ausgeführt. Demnach handelte es sich um eine zentrale Datei für jenen Teil der Systeme, der für die Erkennung – und Abweisung – automatisierter ("Bot")-Anfragen zuständig ist. Deshalb seien auch nicht alle Dienste betroffen gewesen, die Cloudflare nutzen: Wer für die Abweisung von Bots nicht auf die betroffene Software setzt, dessen Seite blieb erreichbar.
Wie Cloudflare erläutert, handelt es sich bei dem lahmgelegten System um eine Technik, die unter anderem mit Methoden des maschinellen Lernens jedem Zugriff eine Punktzahl zuordnet. Dieser "Bot Score" zeigt demnach an, mit welcher Wahrscheinlichkeit es sich um eine automatisierte Anfrage handelt. Berechnet wird der unter anderem auf Basis ebenjener Datei, die plötzlich zu groß geworden sei. Darin würden eigentlich Merkmale von Anfragen zusammengetragen, die bei der Beurteilung helfen sollen. In der Folge seien die Punktzahlen falsch berechnet worden, was auf viel zu viele automatisierte Zugriffe hingedeutet habe. Wenn Kunden solche blockiert haben wollten, waren sie plötzlich mehr erreichbar. Andere waren nicht betroffen.
Stundenlange Problembehebung
Die Behebung des Problems wurde laut des Blogeintrags, den Cloudflare-Chef Matthew Prince persönlich veröffentlicht hat, durch einen unglücklichen Zufall erschwert: Die vollkommen unabhängig von der eigentlichen Cloudflare-Technik gehostete Statusseite sei etwa zeitgleich offline gegangen. Deshalb habe man zuerst gedacht, dass ein massiver Angriff auf Cloudflare für die Ausfälle verantwortlich war. Dabei habe es gar keinen Zusammenhang gegeben. Prince selbst hat demnach in einem internen Chat gemutmaßt, dass eines der aktuellen größten Botnets hier Muskeln habe zeigen sollen. Microsoft hat gerade erst eine Rekordattacke auf die eigene Infrastruktur öffentlich gemacht.
Videos by heise
Laut der Beschreibung haben die Probleme am Dienstag um 12:28 Uhr MEZ begonnen, anderthalb Stunden lang wurden sie dann untersucht. Kurz nach 14:30 Uhr habe man sich dann auf die eigentliche Ursache konzentrieren können, eine Stunde später habe man die Überschreibung der viel zu großen Datei gestoppt. Minuten später war das Problem demnach intern behoben, eine korrekte Datei wurde an die Systeme verteilt. Endgültig gelöst war das Problem demnach dann um kurz nach 18 Uhr MEZ, also nach fast sechs Stunden. Prince entschuldigt sich dafür. Angesichts der Bedeutung von Cloudflare für das Internet sei jeder Ausfall "inakzeptabel": "Wir wissen, dass wir Sie heute enttäuscht haben."
Die unterschiedlichsten Dienste betroffen
Die Infrastruktur von Cloudflare soll Internetseiten und -anwendungen eigentlich schneller, sicherer und stabiler machen. Der US-Dienst ist besonders bekannt fĂĽr seine DDoS-Abwehr. Seine Technik schĂĽtzt also davor, dass massenhafte Anfragen Internetseiten lahmlegen. Weil zahlreiche Dienste darauf setzen, hatte der Ausfall am Dienstag auch weitreichende Folgen fĂĽr die unterschiedlichsten Angebote im Internet. Nicht erreichbar waren unter anderem die Kurznachrichtendienste X und Truth Social, aber auch KI-Angebote wie ChatGPT und Perplexity stellten die Arbeit ein. Weiterhin traf der Fehler auch groĂźe Plattformen wie ikea.com und sogar einzelne Medien.
(mho)