Verkettung unglücklicher Umstände zwingt DNS-Server in die Knie
Die massiven Störungen im Domain Name System entspringen der Kombination eines Problem mit der Firewall-Software ZoneAlarm mit Störungen in den Transatlantik-Kabeln und der mangelhaften Konfiguration von DNS-Servern.
Die in den letzten zwei Tagen aufgetretenen massiven Störungen im Domain Name System (DNS) sind mitterweile abgeklungen. Vor allem Provider und Carrier bemühen sich nun, die Ursachen der Probleme zu analysieren. Offenbar führte eine ungewöhnliche Konstellation von Pannen zu den Performance-Einbrüchen im DNS.
Wie heise online bereits am gestrigen Mittwoch berichtete, spielt offenbar die Personal-Firewall-Software Zonealarm eine große Rolle: Abertausende installierte Zonealarm-Clients versuchten nahezu zeitgleich, ein Autoupdate durchzuführen. Dazu fragten sie in sehr kurzen Abständen beim Server lockup.zonelabs.com des Zonealarm-Herstellers Zonelabs an.
Die DNS-Server, die für die Zuordnung dieses Hostnamens von zonelabs.com zu einer IP-Adresse zuständig sind, waren allerdings nicht erreichbar. Zonelabs beherbergt seine technische Infrastruktur beim US-amerikanischen Provider above.net. Zwar verfügt dieser Carrier über redundante IP-Anbindungen, die allerdings allesamt über eine einzige Strecke nach Europa und zurück geroutet werden, nämlich über das Transatlantik-Kabel TAT-14. Und genau dieses Kabel fiel am Dienstag nachmittag aus.
Weil Zonealarm daher keine IP-Adresse zum Hostnamen bekommen konnte, wiederholte die Software mehrmals pro Minute die Anfrage beim DNS-Server des Kunden-Providers. Jedesmal versuchten die DNS-Server der Provider denn auch, beim DNS zu ermitteln, welche IP-Adresse hinter lockup.zonelabs.com steckt. Zusammengenommen wirkte sich dieser Prozess ähnlich einer Distributed-Denial-of-Service-Attacke auf die DNS-Server der Provider aus.
Im Gespräch mit heise online bestätigte Zonelabs-Chef Gregor Freund diese unglückselige Konstellation. Man habe eine solche Lage nicht vorhergesehen, daher gebe es keine quantitive Beschränkung für DNS-Anfragen von Zonealarm. In der kommenden Woche wolle Zonelabs ein Patch veröffentlichen, der die Zahl der misslungenen DNS-Requests beschränkt, um einen entsprechenden "DDoS-Effekt" zu verhindern.
Insgesamt habe es sich um eine "Verkettung unglücklicher Umstände" gehandelt. Freund wollte sich nicht darauf festlegen, welchen Anteil Zonealarm tatsächlich an den DNS-Störungen gehabt haben könnte. Kritik übte er an der Art, wie die europäischen Provider teilweise auf die Situation reagiert hätten: "Da gab es ein Problem, aber das Domain Name System hätte das eigentlich abfedern müssen." DNS-Server, die sich misslungene Anfragen beim Nameservice nicht merken (so genanntes "negative caching"), um eine erneute Anfrage nach dem gleichen Host nicht wieder durch den ganzen DNS-Baum leiten zu müssen, seien schlecht konfiguriert.
Während in Deutschland die Nebeneffekte des Kabelausfalls weitgehend abgestellt sind, stöhnen Provider in anderen europäischen Ländern unter dem Bruch der Leitung. Zwar sind mittlerweile überall Alternativ-Routen etabliert, aber die Latenzzeiten bei Zugriffen in die USA haben sich mancherorts, wie etwa in Großbritannien, deutlich erhöht. Am größten europäischen IP-Peering-Knoten LINX in London fließen momentan rund 2 GBit/s weniger Daten durch die Switches als im Normalfall.
Das Trans-Atlantic Cable Network 14 (TAT-14CN) ist ein ehrgeiziges Projekt. Rund 50 Telekommunikationsunternehmen, darunter beispielsweise die Deutsche Telekom, hatten sich 1997 zu einem Konsortium zusammengeschlossen, um das 1,5-Milliarden-Unternehmen zu finanzieren. Mit großem Aufwand wurden zwei redundante Kabelstrecken durch den großen Teich gelegt. Unterteilt in eine "Süd- und Nordroute", verbindet das Kabelsystem die US-amerikanischen Kabelkopfstationen Manasquan und Tuckerton mit den europäischen Pendants Widemouth (Großbritannien), St. Valery-en-Caux (Frankreich), Katwijk (Niederlande), Norden (Deutschland) and Blaabjerg (Dänemark). Über das insgesamt 15.300 Kilometer lange Kabel können die Carrier-Unternehmen verteilt auf vier 160-GBit/s-SDH-Strecken auf insgesamt bis zu 640 GBit/s Bandbreite zurückgreifen.
Vor drei Wochen nun ging auf der Südroute eine Kabelstelle zwischen den USA und Großbritannien zu Bruch, die Nordroute übernahm teilweise den Transport. Der Südrouten-Bruch ist noch nicht repariert. Am vergangenen Dienstagnachmittag brach auch eine Stelle zwischen Großbritannien und den Niederlanden an der Nordroute, womit ein Teil der Redundanz aufgehoben war. Die France Telecom kündigte umgehend an, ein Spezialschiff losschicken zu wollen, das den Bruch beheben soll. Allerdings wisse man noch nicht, was die Ursache des Ausfalls ist. Die Reparatur könne mehrere Wochen dauern. Die British Telecom will das Problem an der Südroute bis Ende dieser Woche behoben haben. (hob)