Cloud-Ausfall: Atlassian will als "Firma ohne Bullshit" aus Fehlern lernen

In einer ausführlichen Analyse erklärt die Atlassian-Geschäftsführung den Ausfall von Diensten wie Jira und Confluence – und gelobt Besserung.

In Pocket speichern vorlesen Druckansicht 29 Kommentare lesen

(Bild: peampath2812/Shutterstock.com)

Lesezeit: 3 Min.
Inhaltsverzeichnis

Atlassian hat einen abschließendes Post-Incident-Review zum Ausfall einiger seiner Cloud-Dienste veröffentlicht. Ab dem 5. April hatten einige Kunden des Unternehmens plötzlich keinen Zugriff mehr auf die gebuchten Dienste wie Jira und Confluence. Die vollständige Wiederherstellung dauerte zwei Wochen. Das Unternehmen wurde vor allem für die zögerliche Kommunikation kritisiert – sowohl extern als auch mit den Betroffenen.

Anders als kurz nach dem Vorfall verkündet, waren von dem Ausfall, der am 5. April begann, nicht 400, sondern 775 Kunden-Sites betroffen. Wie vielen Einzelusern der Zugriff auf Jira, Confluence & Co. verwehrt blieb, dazu schweigt auch das nun veröffentlichte Post-Incident Review.

In dem Schreiben erklären zunächst die beiden Atlassian-Gründer und -Co-CEOs Scott Farquhar und Mike Cannon-Brookes, dass man daran arbeite, das Vertrauen der vom Ausfall betroffenen Kundschaft zurückzugewinnen. Ein zentraler Grundsatz des Unternehmens sei es, eine "offene Firma ohne Bullshit" zu sein – deshalb veröffentliche man nun den ausführlichen Report.

Obwohl man über 200.000 Cloud-Kunden habe, so die Co-CEOs weiter, habe man vor dem Ausfall eine Uptime von 99,9% gewährleisten können, was die Vorgaben der Service-Level-Vereinbarung sogar noch übertroffen habe. Eine explizite Bitte um Entschuldigung gegenüber den betroffenen Firmen formulieren sie nicht.

Der weitere Verlauf des Reviews bestätigt auf technischer Seite die bereits Mitte April abgegebene Erkärung des Unternehmens. Der Fehler sei beim Entfernen der nativen App "Insight - Asset Management" entstanden. Neben mangelhafter interner Kommunikation – statt der IDs der betroffenen Insight-Instanzen wurden die IDs der jeweiligen Kunden weitergegeben – war auch die eingesetzte API zu rigoros und löschte Daten ohne Bestätigung.

Nach dem Ausfall habe man sich auf die Kommunikation mit den Betroffenen konzentriert und die öffentliche Kommunikation hintangestellt. Leider habe das verwendete Skript aber Teile der Kundendaten gelöscht, sodass auch dieser Kommunikationsweg nicht reibungslos bedient werden konnte. Dennoch, so Atlassian weiter, habe der Datenverlust bei keinem der Betroffenen länger als fünf Minuten umfasst. Überhaupt hätten 99,6 % der Kunden von dem Ausfall gar nichts mitbekommen.

Trotzdem wolle man nun mit vier zentralen Maßnahmen einen ähnlichen Vorfall künftig ausschließen. So werde man generell ein Soft Delete etablieren: Es soll derart große Löschvorgänge unterbinden und zumindest mit mehreren Bestätigungsschritten versehen. Gleichzeitig wolle man verhindern, dass Kundendaten gelöscht werden können.

Zudem will Atlassisan die Disaster Recovery beschleunigen und künftig in der Lage sein, auch großflächige Löschungen automatisiert wiederherzustellen. Mit Simulationen wolle man zudem intern den Ernstfall proben und den Incident-Management-Prozess kritisch hinterfragen.

Ein neues Kommunikationsprozedere soll außerdem gewährleisten, dass die Öffentlichkeitsarbeit bei derartigen Vorfällen in Zukunft schneller über mehrere Kanäle stattfindet: Obwohl man sich auch beim aktuellen Ausfall früh über die Ursache bewusst gewesen sei, sei man wegen der komplexen Umstände und der fehlenden Information über die Ausmaße nicht rechtzeitig an die Öffentlichkeit gegangen. Nun wisse man, dass man transparenter hätte sein müssen und besser kommunizieren sollte, was man bereits wisse und was nicht.

[Update 13:28: Missverständliche Formulierung zum Umfang des Datenverlusts angepasst. Vielen Dank an Forum-Nutzer ventorcai]

(jvo)