Ausfallraten von SATA-Festplatten im harten Server-Einsatz
Der Cloud-Storage-Anbieter Backblaze veröffentlicht Daten, die sehr unterschiedliche Ausfallraten verschiedener Festplatten zeigen - allerdings unter untypischen Betriebsbedingungen.
Jede Festplatte fällt irgendwann aus, man weiß bloß nicht, wann. Der US-amerikanische Cloud-Backup-Dienstleister Backblaze versucht seit Jahren, die für seine Zwecke zuverlässigsten Platten zu finden, indem er die tatsächlichen Ausfallraten unterschiedlicher Festplattenmodelle analysiert. Diese Analysen veröffentlicht Backblaze in unregelmäßigen Abständen im Firmen-Blog, stellt aber auch die Rohwerte öffentlich zum Download bereit. Die aktuellen Ausfallraten verschiedener Plattentypen der Firmen HGST, der HGST-Mutterfirma WD, Seagate und Toshiba zeigen, dass die HGST-Laufwerke besonders zuverlässig sind – jedenfalls in den Speichersystemen von Backblaze.
Krasse Unterschiede
Die aktuelle Ausfall-Analyse von Backblaze bezieht sich auf das erste Quartal 2016 und auf mehr als 60.000 Festplatten. Backblaze verwendet dabei nur Daten von Platten, von denen mindestens 45 Stück gleichzeitig im Einsatz sind – hier gibt es große Unterschiede: mehr als 50 Prozent der Platten sind vom 2013 eingeführten Seagate-Typ Desktop HDD 4TB (ST4000DM000), während von 10 anderen Typen auf der Liste jeweils weniger als 1000 Stück liefen.
Zum Alter der Festplatten zum Zeitpunkt des Ausfalls im ersten Quartal 2016 macht Backblaze keine Angaben; vermutlich hatten die vier defekten WD Red 2TB (WD20EFRX) aber schon mehrere Jahre auf dem Buckel, denn diese Baureihe existiert sein 2012. Diese NAS-Laufwerke von WD zeigten jedenfalls mit 12,57 Prozent "Annual(ized) Failure Rate" (AFR) die höchste Ausfallwahrscheinlickeit, während die 3-TByte-Version derselben Familie (WD30EFRX) bloß eine AFR von 3,09 Prozent aufwies. Insgesamt waren aber alle WD-Platten bei Backblaze weniger zuverlässig als die HGST-Laufwerke der Baureihen Deskstar 5K3000, 5K4000, 7K2000, 7K3000 sowie MegaScale 4000 und MegaScale DC 4000.B – das zeigt auch der Vergleich für das Gesamtjahr 2015.
Auch bei den von Backblaze verwendeten Seagate-Laufwerke waren Ausfälle durchweg wahrscheinlicher als bei den HGST-Modellen.
Backblaze: Ausfallraten von Festplatten (3 Bilder)
Starke Schwankungen
Doch je nach Zeitraum schwanken die AFR-Werte pro Plattentyp deutlich, wie ein genauer Blick auf einzelne Modelle in der Auswertung für den Zeitraum Q2/2013 bis Q4/2015 zeigt. Für diesen Zeitraum hat Backblaze für die HGST Deskstar 7K3000 eine AFR von 1,8 Prozent ermittelt, während der Wert im Q1/16 dann nur noch 0,81 Prozent betrug. Die Daten eines einzelnen Quartals lassen also nur geringe Rückschlüsse auf die Gesamtlebensdauer eines Plattentyps zu.
Es fehlen auch Werte wie die mittlere Lebensdauer zum Zeitpunkt des Ausfalls. In den Daten für 2015 nennt Backblaze lediglich ein mittleres Alter aller im jeweiligen Zeitraum noch laufenden Platten eines Typs. Wenig überraschend hat die Platte mit der damals höchsten AFR von 10,16 Prozent, die Seagate Barracuda LP 5900 1,5TB (ST31500541AS), auch das höchste Durchschnittsalter, nämlich mehr als fünfeinhalb Jahre.
Die AFR-Werte für die seltener verwendeten Plattentypen lassen gar keine Rückschlüsse auf die Zuverlässigkeit zu. Das zeigt das Beispiel der heliumgefüllten Ultrastar He8 von HGST. Für sie nennt Backblaze für die 2,5 Jahre bis Ende 2015 eine AFR von 4,89 Prozent, im Q1/16 fiel dann aber keine weitere Platte mehr aus. Schaut man genauer hin, betreibt Backblaze seit Anfang 2015 offenbar genau ein (Test?-)System – einen sogenannten Storage Pod, siehe unten – mit der Ultrastar He8, denn darauf deutet das Ende 2015 dafür genannte mittlere Plattenalter von 10,7 Monaten hin. Wenn aber in einem einzigen Testsystem über 14 Monate gerade einmal zwei von 45 Platten ausgefallen sind, dann ist das wohl kaum mehr als anekdotische Evidenz.
AFR-Berechnung
Die Annual oder Annualized Failure Rate (AFR) soll darstellen, wie viele Platten anteilig pro Jahr ausfallen. Dazu berechnet Backblaze zunächst die kumulativen "Drive Days" eines Plattentyps für einen gegebenen Zeitraum, etwa die tatsächliche Betriebszeit aller Platten eines Typs für ein Quartal. Bei 1000 ständig laufenden Platten ergeben sich daraus vom 1. Januar bis zum 31. März 2016 (91 Tage wegen Schaltjahr!) 91.000 Drive Days. Die darauf bezogene Ausfallrate wird dann aufs Jahr hochgerechnet, also mit (366/91) multipliziert. Die von Backblaze genannten "Drive Days" liegen teilweise höher als das Produkt aus jeweils genannter Plattenzahl und Quartalstagen, aber die Abweichungen sind meistens gering. Vermutlich gibt es eine Ungenauigkeit bei der automatisierten Erfassung der Daten aus den Server- und SMART-Logs.
Die Festplattenhersteller geben AFR-Werte in den Datenblättern ihrer Laufwerke an, die üblicherweise zwischen 0,4 und 1 Prozent liegen. Diese Werte gelten aber nur für den jeweils angenommenen Einsatzzweck und schließen etwa Schäden durch Stöße, Überspannung oder falsche Bedienung nicht ein. Außerdem bleibt die Ausfallwahrscheinlichkeit in der Praxis nicht über den gesamten Nutzungszeitraum gleich, sondern liegt gemäß der "Badewannenkurve" in der ersten Zeit nach der Inbetriebnahme üblicherweise höher, fällt dann ab und steigt nach einigen Jahren Nutzung wieder deutlich an.
Spezialfall
Die Messwerte von Backblaze lassen nur mit großen Einschränkungen Rückschlüsse auf die Ausfallrate der verwendeten Platten in anderen Einsatzszenarien zu. Backblaze verwendet für seine Storage-Server nämlich vorwiegend billige SATA-Platten, die eigentlich nicht für den Einsatz in großen Speichersystemen gedacht sind. Auch die Platten der Baureihe WD Red sind dafür nicht ausgelegt, sondern für NAS-Boxen mit maximal acht Laufwerken. Man geht davon aus, dass die kräftigen Vibrationen benachbarter Festplatten erheblich zum Verschleiß und letztlich zu frühen Ausfällen beitragen können. Und Backblaze setzt die SATA-Laufwerke in selbst entwickelten "Storage Pods" ein, die jeweils 45 beziehungsweise 60 der 3,5-Zoll-Laufwerke aufnehmen. Von diesen Storage Pods sind je 10 Stück übereinander in Racks montiert, letztlich sitzen also 450 bis 600 Festplatten in einem Schrank.
Backblaze verwendet vor allem 4-TByte-Platten und packt damit bis zu 2,4 Petabyte brutto in ein Rack. Platten mit 6 oder 8 TByte kommen derzeit dort seltener zum Einsatz, weil sich deren Kauf aus Sicht von Backblaze bisher nicht lohnt: Manche sind pro Terabyte gerechnet teurer als die 4-TByte-Laufwerke, außerdem kauft die Firma jeweils große Mengen auf einmal zu möglichst günstigen Preisen. Dabei gibt es laut Backblaze-Blog derzeit oft noch Probleme mit der Beschaffung, weil nur wenige Händler Aufträge über mehrere tausend gleicher 6- oder 8-TByte-Disks abwickeln können. Schließlich brauchen die 6- und 8-TByte-Platten mehr Strom als die 4-TByte-Modelle, was Energieversorgung und Kühlung mancher Racks überfordert.
Dabei nutzt Backblaze ganz bewusst preiswerte Festplattenmodelle und nicht die teureren "Enterprise"- oder "Nearline Storage"-Varianten der Plattenhersteller. Nach Einschätzung von Backblaze amortisiert sich deren angeblich höhere Zuverlässigkeit nicht. Das Geschäftsmodell von Backblaze zielt außerdem darauf, Backup- und Cloud-Storage-Kapazität so billig wie möglich bereitzustellen – da besteht schlichtweg kein Spielraum für teurere Disks. Aus diesem Grund entwickelt Backblaze auch die Hardware der Storage Pods selbst und verwendet preiswerte SATA-Adapterkarten im Verbund mit SATA-Port-Multiplier-Backplanes statt teurer SAS-Technik.
Backblaze packt nach eigenen Angaben nur Platten gleichen Typs in einen Storage Pod.
SMART-Warnung
Laut Backblaze sind moderate Ausfallraten von rund 10 Prozent AFR kein großes Problem, weil die Storage-Software diese Ausfälle zuverlässig kompensiert. Wenn die Platten billig genug sind, lassen sich höhere Ausfallraten deshalb verschmerzen. Bei den Seagate-Platten hebt Backblaze weitgehend zuverlässige Warnungen durch die eingebaute SMART-Überwachung hervor, wodurch sich Ausfälle frühzeitig ankündigten. Bei den anderen Herstellern funktioniere das weniger zuverlässig.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
Während Backblaze früher Software-RAID 6 mit Linux-Bordmitteln verwendet hat, kommt mittlerweile ein selbst in Java geschriebener Erasure-Coding-Algorithmus zum Einsatz, der jede Datei in 17 gleich große Teile zerlegt, zusätzlich drei Blöcke mit redundanten Informationen erzeugt und diese 20 Blöcke über mehrere Storage Pods verteilt. So stellt Backblaze sicher, dass die Daten auch verfügbar sind, wenn ein kompletter Storage Pod ausfällt. (ciw)