HRLS Hunter: Erster deutscher Supercomputer mit AMDs Riesen-APU MI300A
In Stuttgart ist der Supercomputer Hunter einsatzbereit. Er verwendet primär AMDs Kombiprozessor Instinct MI300A.
Alles nach Zeitplan: Das Höchstleistungsrechenzentrum Stuttgart (HLRS) weiht seinen Supercomputer Hunter ein. Er steht ab sofort deutschen Forschern und Unternehmenspartnern zur Verfügung, etwa für Wetter- und Klimamodellierung, biomedizinische Forschung, Materialwissenschaft und für Simulationen im Ingenieurswesen.
Im Vergleich zu anderen modernen Supercomputern ist Hunter mit einer Spitzenrechenleistung von 48 Petaflops recht klein. Dafür ist er aus technischer Sicht spannend: Die meiste Rechenleistung kommt von Nodes ohne eigenständige Prozessoren. Stattdessen setzt das System auf AMDs Instinct MI300A, die CPU-Kerne, einen GPU-Beschleuniger und High-Bandwidth Memory (HBM3) auf einem Träger vereinen.
Hunter ist als Ăśbergangssystem zum Exascale-Supercomputer Herder gedacht, der 2027 ans Netz gehen soll.
Leistungsverdoppelung
Die Hauptrechenleistung stemmen 752 MI300A-Beschleuniger. Damit liegt Hunter noch über unserer Schätzung, ist mit 48 Petaflops aber auch schneller als angekündigt. Der Wert bezieht sich auf komplexe FP64-Berechnungen. KI-Algorithmen mit INT8 und ähnlichen Datenformaten laufen viel flotter.
Jeder einzelne Beschleuniger integriert 24 Zen-4-Kerne und 228 Compute-Units – weil sie nicht für die 3D-Darstellung ausgelegt sind, nennt AMD die 14.592 enthaltenen Rechenwerke nicht Shader wie bei Grafikkarten, sondern Stream-Prozessoren. Hinzu kommen 128 GByte HBM3, die 5,3 TByte/s übertragen. Viel und schneller Speicher machen sich vor allem bei KI-Algorithmen gut, für die das System explizit gedacht ist.
Abseits der Instinct-Hardware betreibt das HLRS im Hunter auch reine CPU-Nodes. Insgesamt 512 AMD Epyc 9374F mit insgesamt 16.384 Kernen stecken in 256 Nodes. Jeder einzelne Prozessor nutzt nur 32 Kerne, verfĂĽgt aber ĂĽber einen 256 MByte groĂźen Level-3-Cache. Damit eignen sich die CPUs vor allem fĂĽr latenzkritische Anwendungen. 768 GByte DDR5-4800-RAM pro Node runden das System ab.
HPE baut Hunter auf Basis der eigenen Cray-EX4000-Plattform mit Flüssigkeitskühlung. Ein Speicher-Rack vom Typ Cray Clusterstor E2000 enthält 2120 Datenträger mit einer Gesamtkapazität von 25 Petabyte – typischerweise ein Mix aus HDDs und SSDs.
Das HLRS betont, dass Hunter fast doppelt so schnell ist wie der bisherige Hawk-Supercomputer. Dabei vergleicht die Einrichtung allerdings ausschlieĂźlich das alte Hauptsystem bestehend aus 8192 Epyc 7742 mit jeweils 64 Zen-2-Kernen und klammert das nachgerĂĽstete GPU-Cluster mit 192 Nvidia A100 aus.
Leistungsaufnahme sinkt im Vergleich zu Hawk
Erfreulich: Hunter senkt den Energiebedarf verglichen mit dem bisherigen Supercomputer Hawk um 80 Prozent auf 560 Kilowatt. Neben einem Effizienzsprung durch neuere Technik helfen die GPUs durch ihre massive Parallelisierung mit mehr Rechenleistung pro Watt.
Außerdem erhöht eine dynamische Leistungsbegrenzung die Effizienz: Auf dem Supercomputer laufen in der Regel viele Anwendungen parallel. Im Falle einer rechenintensiven Anwendung bekommt der zuständige Prozessor oder Beschleuniger ein möglichst hohes Power-Budget. Bei speicher-, aber nicht rechenintensiven Anwendungen takten die Chips herunter, um Energie zu sparen. Gemittelt hält der Supercomputer das vorgesehene Gesamtlimit ein. Laut HLRS sinkt dadurch die elektrische Leistungsaufnahme um etwa 20 Prozent, mit vernachlässigbaren Performance-Einbußen.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
(mma)