Zu heiße Server ließen Outlook.com, Hotmail und Skydrive stolpern

Microsoft hat Hinweise zur Ursache der Server-Ausfälle veröffentlicht, die am Dienstag und Mittwoch zu Schwierigkeiten beim Zugriff auf Cloud-Dienste des Unternehmens führten.

In Pocket speichern vorlesen Druckansicht 40 Kommentare lesen
Lesezeit: 2 Min.

Je mehr Menschen Dienste aus Cloud-Rechenzentren nutzen, desto größere Auswirkungen haben Ausfälle. Am Dienstag ab etwa 21.30 Uhr deutscher Zeit (13.35 Uhr PDT) hatten Microsoft-Kunden Schwierigkeiten, auf Outlook.com, Hotmail und teilweise auch auf Skydrive zuzugreifen. Erst nach etwa 16 Stunden hatten die Microsoft-Administratoren den Normalbetrieb wieder vollständig hergestellt, wie der Vizepräsident Arthur de Haan in einem Blog-Eintrag erläutert.

Microsoft-Rechenzentrum in Irland mit Frischluftkühlung.

(Bild: Microsoft)

Nach seinen Ausführungen gingen die Ausfälle auf eine Überhitzung in einem bestimmten Teil eines einzelnen, nicht näher bezeichneten Rechenzentrums zurück. Dort hatte das Firmware-Update "eines zentralen Bauteils unseres Rechenzentrums" ein unerwartetes Problem verursacht. Das gleiche Update sei bereits zuvor in anderen Rechenzentren erfolgreich durchgeführt worden, doch am Dienstag führte es dazu, dass die Temperatur in einem Bereich des Rechenzentrums schnell und deutlich anstieg.

Bevor die auf den betroffenen Servern laufenden Dienste auf andere Maschinen oder in andere Rechenzentren verlagert werden konnten, griffen laut de Haan "Safeguard"-Funktionen automatisch ein. Diese wiederum blockierten den Zugriff auf eine "große Anzahl von Servern", auf denen Teile von Outlook.com, Hotmail und Skydrive liefen. Unmittelbar nachdem die Safeguard-Funktionen zuschlugen, wurden dann Administratoren tätig, um die Dienste wieder in Schwung zu bringen.

Der Online-Dienst Data Center Knowledge spekuliert, dass die Geschwindigkeit der lokalen Überhitzung des Microsoft-Rechenzentrums mit der besonders effizienten Kühltechnik zu tun haben könnte. Demnach gehört Microsoft zu den Pionieren beim Betrieb von Rechenzentren mit höheren Lufttemperaturen als üblich. Dadurch lässt sich der Einsatz stromdurstiger Kältemaschinen minimieren oder ganz vermeiden, doch unter Umständen schrumpft in der Folge die Notreserve des thermischen Puffers: Die Temperaturdifferenz bis zur Fehlfunktion oder Sicherheitsabschaltung von Systemen kann kleiner sein als bei aktiv gekühlten Computerräumen. Eine besonders hohe Packungsdichte von Prozessoren und Festplatten verschärft das Problem. Es ist allerdings nicht klar, ob der Ausfall überhaupt in einem Microsoft-Rechenzentrum mit höheren Temperaturen oder mit reiner Frischluftkühlung (wie in Irland) erfolgte.

Schon im Augst 2011 war ein Microsoft-Rechenzentrum in Irland ungewöhnlich stark von einem Stromausfall betroffen worden. Im vergangenen Sommer hatte es mehrfach die Amazon-Cloud in den USA erwischt und auch Apples iCloud. Doch auch kleinere Dienstleister hatten 2012 Probleme in ihren Rechenzentren. Und der Hurrikan Sandy verursachte in den USA ebenfalls viele Ausfälle in Rechenzentren. (ciw)