Bereits vor fast 20 Jahren habe ich ein ähnliches Phänomen auf Intel
Paragon Parallelrechnern beobachtet. Der identische sparse matrix
solver hat mit identischen Eingangsdaten unterschiedliche Ergebnisse
geliefert. Selbst die Anzahl der Iterationen war von Lauf zu Lauf
unterschiedlich. Da dies aber ein iindirect solver war, waren die
Ergebnisse stets im  Rahmen der spezifiereten maximalen Abweichung.
Entsprechend tippe ich auf temporary HW faults (z.B. durch
ionisierende Strahlung oder thermischen Rauschen).
@Heise - schon das ganze mal auf einem Rechner mit lockstep-cores,
kompletter DEDSEC ECC Kette von Speicher bis L1 Cache inkl. Busse,
etc laufen lassen?
GruĂź,
pica
Zur Info
http://www.hpcaconf.org/hpca11/slides/HPCA2005-SoftErrorProblem.ppt
Paragon Parallelrechnern beobachtet. Der identische sparse matrix
solver hat mit identischen Eingangsdaten unterschiedliche Ergebnisse
geliefert. Selbst die Anzahl der Iterationen war von Lauf zu Lauf
unterschiedlich. Da dies aber ein iindirect solver war, waren die
Ergebnisse stets im  Rahmen der spezifiereten maximalen Abweichung.
Entsprechend tippe ich auf temporary HW faults (z.B. durch
ionisierende Strahlung oder thermischen Rauschen).
@Heise - schon das ganze mal auf einem Rechner mit lockstep-cores,
kompletter DEDSEC ECC Kette von Speicher bis L1 Cache inkl. Busse,
etc laufen lassen?
GruĂź,
pica
Zur Info
http://www.hpcaconf.org/hpca11/slides/HPCA2005-SoftErrorProblem.ppt