Ansicht umschalten
Avatar von pica
  • pica

mehr als 1000 Beiträge seit 26.06.2001

Ich tippe auf Hardwarefehler (temporary HW faults)

Bereits vor fast 20 Jahren habe ich ein ähnliches Phänomen auf Intel
Paragon Parallelrechnern beobachtet. Der identische sparse matrix
solver hat mit identischen Eingangsdaten unterschiedliche Ergebnisse
geliefert. Selbst die Anzahl der Iterationen war von Lauf zu Lauf
unterschiedlich. Da dies aber ein iindirect solver war, waren die
Ergebnisse stets im  Rahmen der spezifiereten maximalen Abweichung.

Entsprechend tippe ich auf temporary HW faults (z.B. durch
ionisierende Strahlung oder thermischen Rauschen).

@Heise - schon das ganze mal auf einem Rechner mit lockstep-cores,
kompletter DEDSEC ECC Kette von Speicher bis L1 Cache inkl. Busse,
etc laufen lassen?

Gruß,
pica

Zur Info

http://www.hpcaconf.org/hpca11/slides/HPCA2005-SoftErrorProblem.ppt

Bewerten
- +
Ansicht umschalten