Kommentar zum Cloud-Ausfall bei Atlassian: Professionell geht anders

"Vor diesem Ausfall hatten wir 99,9 Prozent Uptime", bilanzieren die Atlassian-CEOs nach dem Cloud-Ausfall. Geht's noch? Was haben wir denn davon?

In Pocket speichern vorlesen Druckansicht 53 Kommentare lesen

(Bild: tsyhun/Shutterstock.com)

Lesezeit: 3 Min.
Von
  • Dr. Oliver Diedrich

Das ist ja gründlich schiefgegangen, Mike und Scott*. Ein teilweiser Ausfall der Cloudversionen von Confluence und Jira, für viele Entwickler unverzichtbare Werkzeuge in der täglichen Arbeit. Und das, wo ihr eure Kunden seit Anfang 2021 drängt, auf die Cloudversionen umzusteigen: Die Preise der On-Premises-Varianten stiegen, ab 2024 sollen sie gar nicht angeboten werden. Für die Anwender, die euren Weg in die Cloud nicht mitgehen wollten, stellte iX damals Alternativen zu Jira und zu Confluence vor.

Nun gibt es sicherlich gute Gründe für die Cloud. Nutzer müssen sich nicht mehr selbst mit der Installation und dem Betrieb der Software herumschlagen und das Risiko eines Ausfalls oder Datenverlusts dürfte im eigenen RZ größer sein als in der Cloud. Aber das ist ein bisschen wie mit dem Auto und dem Flugzeug: Objektiv mag das Risiko im eigenen RZ höher sein, aber dem Cloud-Ausfall ist man hilflos ausgeliefert, während man im eigenen RZ immer noch etwas tun kann.

Das mussten einige Atlassian-Kunden in diesem Frühjahr schmerzlich erleben: Ab dem 5. April hatten sie keinen Zugriff mehr auf Confluence und Jira in der Cloud – teilweise für Wochen. Dank der, nennen wir es mal freundlich, zurückhaltenden Kommunikation des Anbieters war tagelang weder klar, wie viele Kunden betroffen waren, noch ob Datenverluste drohten und wie lange der Ausfall dauern würde.

In der Atlassian-Cloud gespeicherte Daten scheinen dabei nicht verloren gegangen zu sein. Aber sicherlich eine Menge Kundenvertrauen. Ursache des Ausfalls waren laut Atlassian fehlerhafte interne Absprachen und ein Wartungsskript, das versehentlich Kundendaten löschte und Accounts deaktivierte. Ebenfalls laut Atlassian arbeiteten in den Tagen nach dem Vorfall "Hunderte von Ingenieuren rund um die Uhr" an der Behebung des Problems.

Das wirft kein gutes Licht auf Atlassian. Wie ist es um die Prozesse, die Regeln und die Compliance in einem Unternehmen bestellt, wenn Missverständnisse zwischen Mitarbeitern eine solche Katastrophe auslösen können? Wenn ein Wartungsskript solche Schäden anrichten kann? Wenn es weder ein funktionierendes Disaster Recovery gibt noch ein Notfallmanagement, sondern die gesamte Entwicklerschaft tagelang unter Hochdruck die Panne ausbügeln muss? Wenn, statt ein Backup einzuspielen, Hunderte Accounts von Hand in direkter Kommunikation mit den betroffenen Kunden wiederhergestellt werden müssen?

Dazu kommt, dass es tagelang keine vernünftige Kommunikation seitens des Anbieters gegeben hat. Hat man darauf gehofft, die – laut Atlassian 99,6 Prozent – nicht betroffenen Kunden würden nichts von dem Ausfall mitkriegen? Oder war man von der Situation so überfordert, dass alle völlig kopflos waren?

Pannen können passieren. Notfallpläne können fehlschlagen. Krisenkommunikation kann misslingen. Aber ein Unternehmen, dem laut eigener Aussage über 200.000 Kunden ihre Daten anvertrauen, sollte mit so einer Situation besser umgehen können. Und sich nicht auch noch im Post-Incident Review damit brüsten, dass man bis zu dem Ausfall eine Uptime von 99,9 Prozent gehabt habe, wie es die Atlassian-Gründer und -Chefs getan haben.

Professionell geht jedenfalls anders.

* Mike Cannon-Brookes und Scott Farquhar, Atlassian-Gründer und -CEOs

(odi)