Windows-Rechner großer Marken arbeiten zuverlässiger

Eine Untersuchung von Microsoft Research zeigt, dass No-Name-Ware und vor allem übertaktete Rechner deutlich häufiger abstürzen als in großen Stückzahlen gefertigte Standardprodukte der etablierten Hersteller.

In Pocket speichern vorlesen Druckansicht 363 Kommentare lesen
Lesezeit: 5 Min.

Windows enthält Funktionen, um die vom Betriebssystem gesammelte Informationen über Probleme und Abstürze an Microsoft-Server zurückzumelden. Die Informationen aus dieser Fehlerberichterstattung nennt Microsoft auch Telemetriedaten und analysiert sie sorgfältig. Eine Auswertung zur Zuverlässigkeit von Windows-PC-Hardware – Desktop-Rechner und Notebooks –, die Edmund B. Nightingale von Microsoft Research auf der EuroSys 2011 in Salzburg vorgestellt hatte, hat nun neue Beachtung gefunden.

In "Cycles, Cells and Platters: An Empirical Analysis of Hardware Failures on a Million Consumer PCs" veröffentlichen Nightingale und seine Kollegen eine Fülle von Daten, die sich allesamt ausschließlich auf Systemabstürze beziehen – also nicht etwa auf Treiberfehler, über die Microsoft schon anlässlich der verrschärften Windows-Logo-Bedingungen vor der Einführung Vista berichtet hatte.

Ein großer Vorzug der Studie der Microsoft-Forscher ist die große Datenbasis von rund 950.000 Absturzprotokollen (Crash Logs). Doch wie die Autoren ausdrücklich einräumen, bilden die Zahlen nur Erfahrungen jener Privatleute ab, die in die Windows-Fehlerberichterstattung eingewilligt haben. Es wurden auch nur Daten sogenannter Consumer-PCs untersucht, also von vorwiegend an private Verbraucher verkauften Rechnern. Der Untersuchungszeitraum betrug rund 8 Monate des Jahres 2008.

Ausfallhäufigkeiten von CPU, Hauptspeicher und Festplatten je nach akkumulierter Betriebsdauer

(Bild: Microsoft)

Trotzdem liefern die Ergebnisse der Studie wertvolle Hinweise zur Zuverlässigkeit von Desktop-PCs und Notebooks – wenn auch nur wenige Überraschungen. Es zeigt sich beispielsweise, dass die von großen Markenfirmen verkauften Computer seltener abstürzen als No-Name-Produkte und vor allem als übertaktete Rechner. Notebooks haben sogar noch seltener Probleme als die stationären Markengeräte. Dahinter steckt wohl schlichte Statistik: Die Fertigung in großen Stückzahlen mit vergleichsweise wenigen Produktvarianten, sorgfältige Qualifikation und Qualitätskontrolle der zugekauften Komponenten, langfristige Lieferantenbeziehungen. Anders ausgedrückt: Wer eine individuelle Hardware-Konfiguration wünscht, muss ein höheres Ausfallrisiko in Kauf nehmen.

Nightingale et al. weisen aber auch darauf hin, dass statistische Ausfallraten fast nichts über ein individuelles Gerät aussagen – sie kennen anscheinend die Versuche, aus MTTF- oder MTBF-Angaben Hinweise zur Qualität einzelner Produkte abzuleiten. Solche Daten sind aber nur relevant, wenn es um große Stückzahlen geht, also etwa für die IT-Verantwortlichen großer Rechenzentren oder für PC-Hersteller.

Interessant sind jedoch die Hinweise zur relativen Verteilung der Absturzursachen. Am häufigsten lösten CPU-Fehler eine Machine Check Exception (MCE) aus, die das Betriebssystem protokollierte. Etwas seltener traten Fehler beim Massenspeicher (Disk) auf. Sehr viel seltener waren Bitfehler im Hauptspeicher die Absturzursache – tendenziell allerdings häufiger bei Maschinen mit gößerem RAM. Die Studie erklärt freilich, dass nur jene Bitfehler erfasst werden konnten, die auch Abstürze auslösten – und das ist nur der Fall, wenn Code-Pages des Kernels betroffen sind. Der belegt aber nur rund 30 MByte, was bei den untersuchten Maschinen des Jahres 2008 im Mittel bloß 1,5 Prozent der RAM-Menge entsprach. Wie andere Untersuchungen zeigten, sind DRAM-Pannen wohl weitaus häufiger, aber ohne ECC-Funktion des Speicher-Controllers kaum zu finden. Wenn eine einzelne Anwendung abstürzt, so löst das nicht zwangsläufig auch einen Windows-Crash aus. Einen Bluescreen sehen die meisten Windows-Nutzer ohnehin kaum noch, weil das System dann automatisch neu startet.

Die Wahrscheinlichkeit für Fehler steigt mit der Nutzungsdauer des Rechners, die Autoren der Studie werteten dazu die kumulierten CPU-Stunden (Total Accumulated CPU Time, TACT) aus. Zunehmendes Alter der Hardware hat hingegen den erwarteten Einfluss – die altbekannte Badewannenkurve.

Wie schon die Studie von Speicherfehlern von Google-Servern bemerkten auch die Microsoft-Forscher, dass recht häufig Hardware-Defekte oder Kontaktprobleme die Ursache sind: Ist ein Fehler schon einmal passiert, ist die Wahrscheinlichkeit hoch, dass er ein zweites oder gar drittes Mal auftritt. Wirklich zufällige Pannen sind also seltener als man annimmt.

Übertakten steigert die Wahrscheinlichkeit von CPU-Pannen um ein Mehrfaches.

(Bild: Microsoft)

Schließlich belegt die Studie, dass Übertakten die Fehlerwahrscheinlichkeit sehr deutlich steigert – wobei die Autoren nur das Übertakten der CPU um mehr als 5 Prozent über ihre Nominalfrequenz als Overclocking werteten. Dann traten auch DRAM-Fehler häufiger auf, wobei die Taktfrequenz des RAM nicht ausgewertet wurde. Die Studie verzeichnet auch Underclocking, allerdings vermutlich nicht im Zusammenspiel mit Undervolting: Es ging wohl vorrangig um Notebooks, deren Prozessoren in niedrigeren Speedstep-Modi liefen. Dann laufen sie deutlich zuverlässiger.

Als Markenhersteller werteten die Forscher Produkte der 20 größten PC-Hersteller der Welt – die Zuordnung ergibt sich zum Beispiel aus der BIOS-Identifikation. Übertaktete Markensysteme wurden rausgerechnet. Selbstbau-PCs dürften nur eine kleine Rolle spielen: Nach Schätzungen von Marktforschern verkaufen AMD und Intel unter 10 Prozent ihrer Prozessoren über den Einzelhandel, in Industrieländern sogar noch deutlich weniger. (ciw)