Logging ausgefallen: Datenverlust bei Cloudflare
Ein Update hat die Protokollsysteme von Cloudflare lahmgelegt. Das Problem war nach Minuten behoben, Kunden verloren Daten mehrerer Stunden.
- Sven Festag
Die cloudbasierte Protokollverwaltung von Cloudflare hat fĂĽr etwa dreieinhalb Stunden keine Daten an Kunden ĂĽbermittelt. Etwa 55 Prozent der Logs gingen dabei verloren. Zuvor hatten Entwickler des Dienstleisters Ă„nderungen am Logpush-System vorgenommen. Diese erwiesen sich als fehlerhaft, sodass die Entwickler eine frĂĽhere Version einspielten, die das Problem behob. Zwar dauerte es nur fĂĽnf Minuten, das Backup einzuspielen, aber die zwischenzeitlich entstandene Datenflut legte die Systeme stundenlang lahm.
Leere Konfiguration löst Datenflut aus
Der Logpush-Dienst liest Protokolldaten aus einem Puffer und leitet sie gebündelt an vom Kunden festgelegte Ziele weiter. Mit dem Update sollte die Unterstützung eines neuen Datensatzes eingeführt werden. Dazu ist die Konfiguration des Logfwdr-Dienstes nötig, die ein anderes System regelmäßig automatisch erledigt. Aufgrund eines Fehlers erhielt Logfwdr eine leere Konfiguration.
Laut dieser Konfiguration hatten Kunden keine Weiterleitungen eingerichtet und Logfwdr erhielt keine Protokolldaten mehr. Um Datenverluste zu vermeiden, löste eine Sicherungsfunktion aus, die anstelle der eingestellten Logs alle Protokolle weiterleitet. Nach Angaben von Cloudflare überstieg die Datenmenge den Speicherplatz der Puffer um das Vierzigfache. Eigentlich sollten die Puffer vor einer solchen Überlastung geschützt sein, jedoch seien die Konfigurationen dafür nicht abgeschlossen gewesen. Erst nach einem Neustart waren die Systeme wieder voll einsatzbereit. Zuletzt verlor auch Microsoft Logging-Daten.
Cloudflare gesteht ein, dass Fehler unausweichlich sind und die Systeme vorhersehbar und ohne Ausfälle darauf reagieren müssen. Dazu will das Unternehmen zukünftig die Systeme Überlastungstests unterziehen. Zudem soll es Warnungen vor Fehlkonfigurationen geben, die Entwickler nicht übersehen können.
Details zum Ausfall des Log-Service gibt es im Cloudflare Blog.
(sfe)