Missing Link: Wenn das Internet kaputt ist – Ein Produktarchitekt im Interview

Wenn Internet-Dienste gestört sind, kann das große Auswirkungen auf Anbieter und Nutzer weltweit haben. Ein Interview mit dem Produktarchitekten von Fastly.

In Pocket speichern vorlesen Druckansicht 69 Kommentare lesen

(Bild: tsyhun/Shutterstock.com)

Lesezeit: 13 Min.
Von
  • Monika Ermert
Inhaltsverzeichnis

Damit das Internet funktioniert, müssen viele Dienste ihre Arbeit fehlerfrei zur Verfügung stellen. Kleine Ursachen können große Auswirkungen haben und die Websitebetreiber genauso hart treffen wie die Nutzer. Ein Content Delivery Network (CDN) beispielsweise sorgt für schnelle Auslieferung größerer Dateien und betreibt dafür bis zu mehrere tausend Knoten und regional verteilte Server im Internet.

"Missing Link"

Was fehlt: In der rapiden Technikwelt häufig die Zeit, die vielen News und Hintergründe neu zu sortieren. Am Wochenende wollen wir sie uns nehmen, die Seitenwege abseits des Aktuellen verfolgen, andere Blickwinkel probieren und Zwischentöne hörbar machen.

2021 war das Jahr der großen Ausfälle. Neben einem DNS-Ausfall bei Akamai, der für fast eine Stunde viele Websites unerreichbar machte, war auch der CDN-Anbieter Fastly von einer ebenfalls knapp einstündigen Panne betroffen und bremste zahlreiche Inhalte im Internet aus.

heise online wollte von Fastly wissen, welche Schlüsse das Unternehmen aus dem Ausfall gezogen hat. Produktarchitekt Sean Leach gibt sich überaus optimistisch bezüglich der Robustheit des eigenen Dienstes und des Internets. Bei der Antwort, wie genau man künftige Ausfälle verhindern will, bleibt er aber vage.

heise online: Sean, ihr Unternehmen erklärte kurz nach dem Ausfall, dass Software auf einem Kundenserver Ursache für das Problem war. Können Sie uns noch etwas mehr Details geben?

Sean Leach: Wir sind in unserer Post-mortem-Analyse auf dem Fastly Blog im Juni dazu schon in die Tiefe gegangen. Dort haben wir Details zur Ursache erläutert, soweit wir darüber sprechen wollen.

Es wurden aber keine Details dazu verraten, um welche Software es sich handelte, oder?

Das weiß ich nicht mehr so genau.
Das Post-mortem hatte keine Information darüber, ob es sich um Fastly eigene Software gehandelt hat….
Wir erlauben Kunden, auf unserer Plattform zu programmieren. Programming the edge ist eines der Merkmale, durch die wir uns im Wettbewerb abheben. Die Kunden können also Software schreiben, die dann auf unserer Plattform läuft.

Das Problem war also Software eines Kunden….

Ja, und das ist, was wir auch im Blogpost erläutert haben. Mehr sagen wir dazu nicht. Lassen Sie mich noch sagen, Post-mortems waren früher sehr, sehr knapp, ein Satz, wir waren von dann bis dann nicht erreichbar, jetzt läuft alles wieder. Das ist heute anders.

Ok, dazu bekommen wir nicht mehr Information. Kommen wir zum Punkt, was hat Fastly gelernt, wie will man künftig ein vergleichbares Problem vermeiden?

Also, was wir gelernt haben, ist, wir haben großartige Kunden, die uns unterstützen und wissen, wie wichtig wir für ihre Infrastruktur sind. Fastly war, generell im Internet, gar nicht so bekannt vorher, durch den Vorfall aber wissen nun viel mehr Leute über uns Bescheid. Natürlich haben wir schon immer hart daran gearbeitet, zuverlässige Infrastruktur anzubieten. Wir testen viel, wir haben jede Menge Dinge, um uns und unsere Kunden zu schützen. Das Internet ist, das ist meine Beobachtung aus 20 Jahren in verschiedenen Infrastruktur-Anbietern, sehr resilient. Ich würde daher all den Artikel widersprechen, die sagen, das Internet ist anfällig und kaputt. Tatsächlich funktioniert es sehr gut. Auch wenn es heute besser funktioniert als vielleicht selbst die ursprünglichen Internetarchitekten erwartet haben, bedarf es natürlich ständiger Pflege und Maintenance. Es ist wie beim Auto, das muss auch mal eine Windschutzscheibe repariert werden, aber insgesamt funktioniert das gut.

Wenn das Auto aber für knapp eine Stunde einfach stehen bleibt, und man müsste etwas ausliefern oder irgendwo hinfahren, hätte man durchaus den Anspruch, dass das nicht einfach wieder passiert. Welche spezifischen Maßnahmen hat Fastly unternommen, um einen Ausfall wie im Juni für die Zukunft zu vermeiden?

Ganz vermeiden lassen sich gelegentliche Problemchen nicht im Internet. Einige der größten Firmen hatten 2021 ja auch ihre Probleme. Wir unterstützen sie gerne. Wir wissen, wie anspruchsvoll es ist, solch massive Netze, wie unser eigenes, zu betreiben. Wir arbeiten alle zusammen, um voneinander zu lernen. Das ist eine angenehme Seite im Bereich Infrastruktur und Netzsicherheit, wir tauschen ausführliche Post-mortems aus – Amazon etwa hatte ein sehr detailliertes. Es ist eine großartige Community.

Und manchmal schreibt man auch bissige Kommentare übereinander, wie kürzlich Fastly und Cloudflare….

Da ging es nur darum, dass Informationen korrekt dargestellt werden.

Sie haben mir noch keine konkrete Maßnahme genannt, die sie nach dem Ausfall getroffen haben. Oder machen Sie einfach weiter wie bisher?

Der Blogpost ist da sehr klar.

Wirklich? Dann frage ich einfach mal. Was halten Sie von einer Empfehlung, sich gegen etwaige Ausfälle durch eine Multi-CDN-Strategie abzusichern?

Es ist eine Option und wir haben Kunden, die das machen. Es gibt allerdings einen Nachteil, und zwar den Verlust von Funktionalität. Die Leute bedienen sich beispielsweise Amazons als Cloudprovider, und sie nutzen Amazon als einzigen Provider, weil sie bestimmte Features nur bei Amazon und bei keinem anderen Cloudprovider bekommen können. Oder Sie nehmen Google und nur Google, aus diesem Grund.
Genauso ist es im CDN Markt. Es gibt Features, die nur wir anbieten und niemand anders – und manche Kunden setzen genau auf diese Funktionalität. Dafür nehmen sie das Risiko in Kauf, von einem einzelnen Anbieter abhängig zu sein.

Und wenn der ausfällt, geht nichts mehr…

Eine Multi-Provider-Strategie ist also nicht so üblich, wie mancher vielleicht denkt. Kunden entscheiden sich dafür, die volle Funktionalität des Providers zu nutzen, anstatt sich auf den kleinsten gemeinsamen Nenner zu beschränken, wie es die Multi-Provider Strategie erforderlich macht. Wenn man zwei CDNs verwendet, kann man die besonderen Funktionalitäten des einen nicht verwenden, wenn der andere sie nicht anbietet. Wir sehen Multi-CDN daher nur für statische Inhalte, Video. Aber für ihre APIs oder ihre Shopping Portale benutzen Kunden ein CDN.

Was empfehlen Sie den Kunden dann, um sich gegen Ausfälle zu wappnen? Abgesehen davon zu sagen, kommt zu Fastly…

Also so platte Sales Pitches will ich hier nicht machen. Ich würde sagen, wenn man bestimmte Funktionalitäten mit einem Provider vereinbart hat, ist es besser, mit diesem Provider zu arbeiten. Egal welcher Provider das nun ist, wenn er Dinge anbietet, die man liebt, dann macht es keinen Sinn, ein Multi-Provider-Modell zu verfolgen. Am Ende des Tages ist man ohnehin abhängig vom DNS, um umschalten zu können. Und wenn man nicht nur einen DNS Provider hat, muss man in der Kette noch weiter nach oben gehen, zur Registry, also etwa .com oder zur Root. Also an irgendeinen Punkt endet man an einem Single Point of Failure. Ich habe vor vielen Jahren mal den Witz gehört, dass die Welt ein Single Point of Failure ist.

Die Ausfallzeiten der Root sind aber nicht existent, verglichen mit den Ausfallzeiten, die wir im vergangenen Jahr von den großen Anbietern gesehen haben. Die Frage wäre: Müssten nicht die Provider das Umschalten von einem Provider auf den anderen im Notfall nicht erleichtern? Ist das ein Problem von Interoperabilität und Portabilität?

Einfach Umschalten geht aber eben nicht. Nur als Beispiel: Die Möglichkeiten, die Programmierbarkeit von Fastly ist viel, viel höher als die anderer CDNs. Wenn Sie sich also an Programming the Edge gewöhnt haben, und Sie können das nirgends anders machen, dann verlieren Sie Funktionalität. Es geht nicht um ein einfaches Umschalten. Beispielsweise verwenden Sie die herausragende RedShift Technologie von Amazon und dann gehen Sie zu einem anderen Cloud-Provider, der das nicht hat, dann verlieren Sie eine Menge Produktivität.

Bleibt die Frage, wie schütze ich mich vor einem Ausfall, vor Downtime?

Vor einem Ausfall? Was, wenn der DNS Provider down ist?

Ich würde denken, für den DNS Provider gilt dieselbe Diversifikations-Strategie, muss man das nicht auf mehreren Ebenen berücksichtigen?

Wir bieten tatsächlich die Einbindung verschiedener Provider an. Terraform etwa erlaubt Ihnen, mehrere CDNs zu nutzen. Wir haben einen Terraform-Provider. Wir bieten den Kunden an, was sie haben wollen. Wenn unsere Kunden eine Multi-CDN-Strategie implementieren wollen, tun wir alles, um es für sie einfach zu machen. Und wenn Sie unsere spezifische Technologie und Features nutzen wollen, machen wir es auch leicht. Ich kenne Anbieter, die alles tun, um zu verhindern, dass Kunden mehrere CDNs nutzen. Wir sind anders. Wir unterstützen die Kunden bei dem, was sie tun wollen. Wir machen keinen Empfehlungen. Unser Job ist es, die Arbeit den Kunden einfach zu machen.

Konnten Sie nach dem Vorfall bei Fastly im vergangenen Jahr einen Trend feststellen? Wollen sich mehr Nutzer absichern über eine Multi-Provider-Strategie?

Das kann ich so nicht sagen. Ich persönlich habe das nicht beobachtet. Wir konnten sehen, dass unsere Kunden zurückgekommen sind. Ich würde sagen, diejenigen, die den Aufwand einer Multi-Provider-Strategie bereits auf sich genommen haben, sind ohnehin bereit. Für die anderen sehe ich keine Veränderung.

Der Digital Service Act und Digital Market Act verordnen Interoperabilität und die Möglichkeit zur Portabilität von Daten. Sorgt das für mehr Freizügigkeit der Nutzer?

Ich kenne die entsprechenden Regelungen nicht genau. Aber wir arbeiten intensiv in der Standardisierung mit. Damit stellen wir sicher, dass wir Standards für Portabilität unterstützen, die von Kunden nachgefragt werden. Nehmen wir zum Beispiel http-Spezifikationen. Das Schöne an unserer Welt ist, eine Menge wird geregelt durch Standard Internet Request for Comments, beispielsweise Dinge wie Cache-Control, http, Quic, und wir halten uns an diese Standards.

Wenn wir nochmal die Liste der Ausfälle von 2021 anschauen, einschließlich des Fastly Ausfalls, welche Lehre ziehen Sie für 2022?

Das Internet ist komplex und eine Menge ziemlich schlauer Leute kümmert sich drum, es am Laufen zu halten. Ich zolle wirklich all den operativen Teams der verschiedenen Firmen Anerkennung.

Und werden wir mehr Ausfälle sehen?

Ich weiß nicht…

Die Antwort wäre 'ja' gewesen…

(beide lachen)

Ich will mich nicht als Wahrsager betätigen. Ich glaube, das Internet hat sich als sehr resilient erwiesen. Natürlich wird es im Verlauf der kommenden Jahre Ausfälle geben. Aber das Schöne ist, es wird weiter wachsen. Und wir werden von jedem Vorfall wachsen.

Ist die zunehmende Marktkonzentration ein Problem für die Sicherheit?

Ich kenne die Leute bei den Unternehmen, Akamai, Cloudflare, Amazon. Sie und wir heuern wirklich die besten Security-Experten an, die der Markt hergibt. Warum sollte man diesen Unternehmen die Absicherung der eigenen Infrastruktur nicht anvertrauen! Die Sorgen über die Cloud und mögliche Datenverluste. Aber da arbeiten die smartesten Leute, die das im Zweifel viel besser machen als Mitarbeiter bei individuellen Firmen.

Haben wir noch ausreichend Wahlmöglichkeiten bei der Auswahl unserer Provider?

Es gibt nicht den einen dominanten Provider. Es gibt viele, mit unterschiedlichen Angeboten. Ja, ich denke, wir haben eine Menge Auswahl.

Welche anderen Maßnahmen zur Vermeidung von Ausfällen haben Sie noch im Angebot?

Zu den Bereichen, in die wir investiert haben, beispielsweise in eine sichere Umgebung, um den Code unserer Kunden laufen zu lassen. Mit WebAssembly kann man Code in einer sicheren, abgeschlossenen Umgebung laufen lassen. Das haben wir entwickelt und als Open-Source-Software in die Community gegeben. Dafür haben wir viel Geld und Zeit investiert. Wir investieren in den Austausch mit unseren Peers, der technischen Community. Es geht um Transparenz, und ich denke, die ist es, die unsere Kunden besonders schätzen. Diese Aktivitäten sind es, auf die wir weiter und noch mehr setzen.

Was erhoffen Sie sich vom Regulierer oder Gesetzgeber?

Ich habe nicht den Eindruck, dass Regulierung echte Lösungen schaffen kann für die besprochenen Dinge. Ich kenne keinen Fall, in dem regulatorische Eingriffe in die Technologie wirklich die gewünschten Effekte erzielt haben. Regulierung kann den individuellen Nutzer schützen. Ich kann nicht für alle Bereiche des Internets sprechen, aber in meinem Bereich, Infrastruktur und Sicherheit, da bin ich skeptisch bezüglich regulatorischer Möglichkeiten. Wir bemühen uns, sichere Protokolle und sichere Verschlüsselungsstandards zu schaffen. TLS 1.3 ist sicherer als TLS 1.2 oder TLS 1.1, und wir haben zu den Ersten gehört, das zu implementieren. Wenn es dafür nun eine Verordnung gäbe, also, das würden wir natürlich anschauen.

Welche neuen Sicherheitstools von der Standardisiererseite stehen jetzt auf dem Plan?

Also TLS 1.3 muss noch überall umgesetzt werden. DDOS für Internet of Things-Devices scheint mir etwas, an dem dringend gearbeitet werden muss. Das wird für einiges Mehr an Sicherheit sorgen. Wir haben viele Kunden, die ihre IoT-Geräte über unsere Netze anschließen. Daher sind wir sehr interessiert an neuen Sicherheitsstandards in diesem Bereich.

(bme)