Top500: Intel-Supercomputer Aurora nun endlich ĂĽber 1 Exaflops, aber ...
Der US-Superrechner Aurora mit Intel-Technik knackt die Marke von einer Trillion FP64-Berechnungen pro Sekunde, erreicht aber nur Platz 2 der 63. Top500-Liste.
- Andreas Stiller
Der US-amerikanische Supercomputer Aurora mit Intel-Chips läuft am Argonne National Laboratory und steht mit 1,012 Exaflops (EFlops) auf der 63. Top500-Liste der weltweit schnellsten Supercomputer. Die wurde auf der International Supercomputing Conference ISC '24 in Hamburg enthüllt. An der Spitze der Liste bleibt allerdings weiter das erste Exascale-System der (westlichen) Welt, der seit 2022 amtierende Frontier mit AMD-Technik und jetzt 1,206 EFlops. Beide Systeme hat die HPE-Sparte Cray aufgebaut.
Aurora hätte längst starten sollen, auf die 62. Top500-Liste schaffte es aber nur ein Teilsystem mit etwa der halben Leistung. Nun sind laut HPE sämtliche 10.624 Knoten eingebaut, jeder mit zwei 52-Kern-Prozessoren (Xeon Max 9470) und sechs Rechenbeschleunigerrn des Typs Intel Data Center GPU Max (Ponte Vecchio). HPE betont aber, dass am Benchmark-Lauf mit dem FP64-Gleitkomma-Benchmark Linpack nur rund 87 Prozent des Systems mitrechneten. Das soll offensichtlich nahelegen, dass Aurora mindestens 1,16 EFlops schafft – immer noch weniger als Frontier. Eigentlich nennt Intel Aurora ein 2-EFlops-System – da ist noch viel Feinarbeit nötig.
Frontier legte seit der ersten Vorstellung 2022 um fast 10 Prozent zu. Die theoretische Spitzenleistung des Systems (Top500-Angabe Rpeak) beträgt inzwischen 1,68 EFlops. In einem neuen Linpack-Lauf war der Frontier mit 1,206 EFlops ein Quäntchen schneller als vor einem halben Jahr (62. Top500-Liste). Na ja, ein "Quäntchen" von 12 PFlops, damit würde ein Rechner in der Top500-Liste auf Platz 83 kommen …
Top10 der 63. Top500-Liste vom November 2023 (10 Bilder)
Top500-Rang 1
(Bild: HPE/Oak Ridge National Laboratory)
Aurora vs. Frontier
Weil beide Exascale-Systeme aus der von HPE übernommenen Cray-Linie stammen, sind ihre einzelnen Knoten (Nodes) mit dem gleichen Interconnect Slingshot-11 verknüpft. Große Unterschiede gibts aber bei anderen Kennwerten. So ist die Energieeffizienz der Intel-Prozessoren im Aurora beim Linpack mit 26,15 GFlops/Watt gerade mal halb so gut wie die der AMD-Konkurrenz im Frontier. Intel begründet das damit, dass die Matrix-Engines beim Ponte Vecchio anders als AMDs MI250X auf doppelt genaue Berechnungen verzichten und sich besser für die kleineren KI-Datenformate eignen: TF32, FP16, BF16 und INT8. Bei der Linpack-Variante HPL-MxP, die mit gemischten Datenformaten (Mixed Precision) arbeitet, können dann auch diese Matrix-Engines zuschlagen und erzielen so mit 10,6 EFlops tatsächlich etwas mehr als Frontier mit 10,2 EFlops (zuvor 9,9 EFlops). Aber ob sie dann in der Energieeffizenz mit AMD mithalten können, ist eher fraglich.
Beim HPCG-Benchmark (High Performance Conjugate Gradients), der weit stärker auf Speicher-Performance abzielt als etwa der Linpack-Benchmark, sieht's bei Aurora derzeit auch nicht wirklich top aus. In dieser Kategorie erreicht Aurora mit 5612 TFlops nur etwas mehr als ein Drittel vom Frontier (14.054 TFlops). Hier, so HPE, seien aber nur 38,5 Prozent des Systems beteiligt gewesen.
Neue Top500-Systeme
Den HPCG-Vergleich dominiert weiterhin der japanische Fugaku mit seinen A64FX-ARM-Prozessoren, der unverändert Platz 4 der Top500-Liste belegt. Dazwischen liegt noch das Azure-Cloud-System "Eagle" von Microsoft, bestückt mit Xeon Platinum und Nvidia H100 mit 561 PFlops. Energieeffizienz- oder HPCG-Werte sind bei Microsoft allerdings Fehlanzeige.
Wirklich neu in den Top10 ist nur das System Alps vom Centro Svizzero di Calcolo Scientifico (CSCS) in der Schweiz auf Platz 6 mit 270 PFlops.
AuĂźerdem wurde der MareNostrum 5 in Spanien noch ein bisschen ausgebaut und ĂĽberholt mit jetzt 175 PFlops den betagten, noch mit IBM Power 9 arbeitenden Summit des Oak Ridge National Lab (150 PFlops).
Alps hat es in sich, denn darin rechnet Nvidias neue (ARM-)Hardware: Grace-Hopper-Superchips GH200, die sich aus den Grace-CPUs, Hopper-GPUs und reichlich HBM3e-Speicher zusammensetzen. Grace basiert dabei auf den von ARM entwickelten Neoverse-V2-Recheneinheiten.
Auch Alps entstammt der erfolgreichen HPE-Cray-Linie, die aktuell für die meisten wichtigen Neuigkeiten zuständig ist. Das weiterhin schnellste europäische System Lumi in Finnland auf Platz 4 gehört zur selben Familie, es ist im Grunde ein kleiner Frontier mit AMD-Technik.
Energieeffizienzsieger JĂĽlich
Außer Alps konnten sich in der 63. Top500-Liste noch sechs weitere Systeme mit Grace-Hopper-Superchips platzieren, die meisten davon ebenfalls von HPE-Cray. Alle zeichnen sich durch sehr hohe Energieeffizienz aus. Und das effizienteste davon steht in Deutschland, in Jülich und heißt Jedi. Es wurde nicht von HPE aufgebaut, sondern – noch unter dem alten Bull-Namen Bullsequana XH3000 – von der Atos-Tochter namens Eviden. Mit 72,73 GFlops/W setzt es in der neuen, 25. Green500-Liste neue Maßstäbe. Weitere drei Grace-Hopper-Systeme liegen mit 65 bis 68 GFlops/W dahinter, unterbrochen nur auf Platz 4 durch Henri mit Nvidia H100 am Flatiron Institute in den USA mit 65,4 GFlops/W.
Es ist das zweite Mal in der Green500-Geschichte, dass ein deutsches System die Spitzenposition übernimmt. 2014 erklomm ein mit AMD-Prozessoren und AMD-Grafikkarten bestückter Rechner der Gesellschaft für Schwerionenforschung (GSI) dank pfiffiger Software mit 5,27 GFlops/W den ersten Platz – also etwa 1/14tel des jetzigen Rekords.