Riesen-Rechenzentren registrieren tückische Prozessorfehler

Laut Forscherteams von Google und Facebook treten Rechen- und Datenfehler wie Silent Data Corruption (SDC) viel häufiger auf, als man bisher erwartete.

255

KI-Rechenbeschleuniger Google TPUv1

(Bild: Google)

08.06.2021, 19:00 Uhr

Lesezeit: 2 Min.

c't Magazin

Von

Christof Windeck

Sogenannte Hyperscale-Rechenzentren, die zehntausende Server betreiben, müssen sich mit Fehlern herumschlagen, die sonst unerkannt bleiben: Durch die gewaltige Anzahl an Prozessorkernen machen sich auch sehr seltene Probleme bemerkbar. Ein Forscherteam von Google beschreibt nun "launenhafte" (mercurial) Prozessorkerne, die bestimmte Rechenaufgaben falsch verarbeiten.

Typisch für sogenannte "Corrupt Execution Errors" (CEE) ist laut Google, dass sie nicht etwa bei allen Kernen eines individuellen Prozessors oder Rechenbeschleunigers auftreten, sondern nur bei einzelnen. Das sind dann die erwähnten "mercurial Cores", von denen es "einige wenige pro mehrere Tausend Server" gibt.

In ihrem Konferenzbeitrag "Cores that don’t count" (PDF-Datei) verweisen die Google-Experten unter anderem auf die etwas ältere Untersuchung von Facebook "Silent Data Corruption at Scale", die ähnlich gelagerte Probleme durch Silent Data Corruption (SDC) beschreibt.

Videos by heise

Beide Forschungsarbeiten nennen keine konkreten Prozessortypen, die besonders betroffen wären. Sie erwähnen jedoch ausdrücklich spezialisierte Rechenbeschleuniger, die Google auch selbst entwickelt, beispielsweise Tensor Processing Units (TPUs).

Den Teams geht es eher um die Entwicklung effizienter Methoden, um derartige Fehler zu enttarnen, und zwar sowohl durch zusätzliche Hardware-Funktionen als auch mit Software. Das Facebook-Team schlägt Prüfalgorithmen vor, die jeder einzelne Prozessorkern in gewissen Abständen verarbeitet, etwa im Zuge von Wartungsarbeiten.

Einfluss kleinerer Strukturen

Die Facebook-Forscher sehen keinen direkten Zusammenhang zwischen der Fehlerhäufigkeit und feineren Strukturen bei der Chipfertigung (Zitat: "SDCs are a systemic issue across generations"). Das Google-Team vermutet aber einen: Als grundlegende Ursache tippen sie auf "immer kleinere Strukturen, die näher an die Grenzen der CMOS-Technik heranrücken, im Verbund mit immer komplexeren Rechenwerken".

Falsch rechnende Prozessorkerne kommen nach den Studien von Facebook und Google jedenfalls deutlich häufiger vor, als es Simulationen und Qualitätsaussagen von Hardware-Herstellern vermuten lassen.