Active Memory Cubes: Hans-Meuer-Preis für Forscher des Jülicher Supercomputing-Centers und von IBM
Active Memory Cube im wissenschafltichen Einsatz - so können man den Inhalt des preisgekrönten Papers umschreiben. Den Hans-Meuer-Preis bekommen die Forscher auf der kommenden ISC-High-Performance-Konferenz verliehen.
Den von der internationalen High-Performing-Konferenz ISC erstmals ausgelobten Hans-Meuer-Preis, benannt nach dem vor einem Jahr verstorbenen ISC-Gründer, erhält ein international zusammengesetztes Forscherteam vom Juelich Supercomputing Centre (JSC), IBM Deutschland und vom IBM Watson Research Center in den USA.
Der Titel ihres Papers lautet: "Accelerating LBM & LQCD Application Kernels by In-Memory Processing". Er addressiert eine Schlüsseltechnik für die HPC-Zukunft mit sogenannten Active Memory Cubes (AMC). Die Forscher fuhren dazu zyklusgenaue Simulationen mit den aus konkreten wissenschaftlichen Aufgabenstellungen stammenden Kernels zur Lattice Bolzmann Method (LBM) und Lattice Quantum Chromodynamics (LQCD). Hierbei spielt nicht nur die Performance, sondern auch die Energieeffizienz eine große Rolle.
Feinheiten zu den Ergebnissen des JSC/IBM-Teams werden am ersten Tag der ISC-High-Performance-Konferenz präsentiert, die vom 13. bis 15. Juli in Frankfurt am Main stattfindet. Zur Konferenz werden über 400 Redner in 67 Sessions erwartet, sowie 160 Firmen und Institute, die in der begleitenden Messe ausstellen. Vor- und nach der Konferenz gibt es zudem zahlreiche Tutorials und Workshops rund ums High Performance Computing. Das Early-Bird-Programm mit deutlichen Preisnachlässen läuft noch bis 10. Juni.
Details zum Active Memory Cube
Die Grundlage der prämierten Forschungsarbeit liefert der von IBM entwickelte AMC. Bei diesem aktiven Speicher werden die Daten zum großen Teil direkt dort verarbeitet, wo sie liegen, nämlich im Speicher, ohne dass sie mühsam und vor allem "energieverzehrend" zur CPU hin und zurück zurückgeschoben werden müssen. Das gilt nicht nur für vergleichsweise primitive Verschiebeoperationen, sondern auch für aufwendige Algorithmen mit Hilfe von In-Memory-Vektorprozessoren. IBMs bislang nur im Simulator laufender AMC, arbeitet mit 32 Processing Lanes, eine jede Lane besteht aus vier Scheiben mit eigenen Registerfiles, jeweils einer ALU und einer Load/Store-Einheit.
Er besitzt 64-bittige Vektor- und Skalar-Register für Integer-und Gleitkomma, hat einen überschaubaren Instruktionssatz (inklusive Multiplikation, Division und Wurzelziehen) und kann mit den Offload-Techniken von OpenMP 4.0 angesprochen werden (oder direkt über die Vektor-ISA).
Eine doppeltgenaue Vektormultiplikation (DGEMM) soll im AMC auf 83 Prozent der theoretischen Spitzenleistung von 320 GFlops kommen, mithin auf 266 GFlops pro AMC. Die Energieaufnahme in einem 14-nm-Prozess wird auf 10 Watt pro AMC geschätzt, so dass auf Systemebene (AMC plus Rest) etwa 20 GFlops/Watt zu Buche schlagen. Zum Vergleich, Intels im Herbst erwarteter Xeon Phi Knight Landing in 14-nm-Technik dürfte nackt, also ohne Berücksichtigung des umgebenden Systems, bei etwa 10 GFlops/Watt liegen. Auch der Xeon Phi nutzt dabei bis zu 16 GByte Speicher on board, den Hybrid Memory Cube von Micron. (as)