ISC'14: Erste Ergebnisse des neuen Supercomputer-Benchmarks HPCG
Der neue Supercomputer-Benchmark HPCG kommt in Fahrt, die ersten 15 Rechenzentren haben Resultate gemeldet, nicht alle haben allerdings schon den Code optimiert.
Zum Abschluss der internationalen Supercomputer-Konferenz ISC'14 in Leipzig haben die Schöpfer des neuen Supercomputer-Benchmarks HPCG, Mike Heroux (Sandia National Lab) und Jack Dongarra (University of Tennessee), die Liste der ersten 15 offiziellen Einreichungen veröffentlicht, beruhend auf der neueren HPCG-Version 2 mit Multigrid-Vorkonditionierung. HPCG löst lineare Gleichungen von großen dünnbesetzen Matrizen mit Hilfe von Iterationen nach der vorkonditionierten Gradientenmethode.
Der Benchmark soll den seit über zwanzig Jahren verwendeten Linpack (HPL) allerdings nicht ablösen, sondern ergänzen. Während Linpack überwiegend die rohe Rechenleistung, ein wenig das Interconnect und so gut wie gar nicht den Speicher abcheckt, steht bei HPCG die Speicherperformance im Vordergrund. Die Ergebnisse in Gleitkommaoperationen pro Sekunde (Flops) liegen daher nur im Bereich von 1 bis 4 Prozent der theoretischen Rechenleistung, während Linpack auf über 90 Prozent Effizienz kommt.
Ganz wichtig ist hierbei die Optimierung, die die Einreicher vornehmen dĂĽrfen und deren Erfolg ganz erheblich das Ergebnis beeinflusst. Einige Einreicher haben sich diese MĂĽhe derzeit noch nicht gemacht, sie sind in der Tabelle mit # gekennzeichnet. Bei anderen, mit einem Stern gekennzeichneten Rechnern lief der HPCG nur auf einem Teil der vorhandenen Kerne, beim Stampede in Texas etwa nur auf einem Achtel.
Effizienzweltmeister aus Japan
Eingereicht wurden unter anderem Ergebnisse des Spitzenreiters der Top500-Liste Tianhe 2 mit Xeon Phi (580 TFlops), des japanischen K-Computers mit SPARC64 VIIIfx (427 TFops) und des Titan mit Nvidia K20x mit 322 TFlops. Vom Mira am Argonne National Lab mit BlueGen/Q (101 TFlops) gibt es bislang nur Werte ohne Optimierung so dass er nur auf 1,2 Prozent der theoretischen Rechenleistung kommt, wogegen das Riken-Institut in Japan sich damit schon viel MĂĽhe gegeben hat und mit 4,1 Prozent klarer Effizienzweltmeister ist.
Der schnellste x86-Rechner der Top500-Liste ohne spezielle Rechenbeschleuniger, der SuperMUC am Leibniz-Rechenzentrum in MĂĽnchen/Garching, erreichte 83,3 TFlops bei 2,9 Prozent Effizienz und konnte in diesem Punkt die mit K20x oder Xeon Phi beschleunigten Systeme mit 1,6 mit 1,8 Prozent Effizienz weit hinter sich lassen.
Nvidia hat auf der ISC'14 bereits die ersten ARM64-Rechner mit X-Gene-Prozessor von Applied Micro und mit Tesla-K20-Karte vorgeführt -- als Demo kam auch hier der HPCG-Benchmark zum Einsatz. Der Code läuft nahezu vollständig auf der GPU, so dass das System mit knapp 16 GFlops ziemlich genau die gleiche Performance aufweist, wie auf irgendeinem kleinen x86-Rechner. Die etwas schnelleren K20x-Karten in den großen Supercomputern Piz Daint und Titan kommen auf etwa 17 bis 18 GFlops pro GPU.
Der komplette ISC'14-Beitrag ĂĽber den HPCG-Benchmark und die ersten Ergebnisse sind auf Jack Dongarras Website (pdf) zu finden.
(as)