Rechnendes RAM für KI-Systeme

Samsung stellt HBM-Stapelspeicher mit eingebauten FP16-Rechenwerken vor, die effizienter und schneller arbeiten als herkömmliche Rechenbeschleuniger.

66

Samsung HBM-PIM-RAM

(Bild: Samsung)

17.02.2021, 15:54 Uhr

Lesezeit: 2 Min.

c't Magazin

Von

Christof Windeck

Das Übertragen von Daten schluckt bei vielen Prozessoren schon mehr Energie als die eigentlichen Rechenwerke, die die Daten verarbeiten. Da liegt der Gedanke nahe, Rechenwerke direkt in Speicherchips einzubauen, so wie es Samsung nun bei seinem High Bandwidth Memory (HBM) mit Processing-in-Memory (PIM) tut.

Die Idee des "rechnenden Speichers" ist alles andere als neu und es gibt vergleichbare Konzepte als Computational Storage bei SSDs. [Update:] Das Berkeley Intelligent RAM (IRAM) Project stammt etwa aus den 1900er-Jahren, später schickte Micron "Automata" ins Rennen. [/Update]

Doch Samsung kooperiert nach eigenen Angaben bereits mit leider ungenannten Herstellern von KI-Rechenbeschleunigern. Auf der Konferenz ISSCC 2021 stellt Samsung das HBM-PIM vor.

High Bandwidth Memory kommt bereits als HBM und HBM2E auf manchen Rechenbeschleunigerkarten zum Einsatz. Es handelt sich um Chip-Stapel aus mehreren DRAM-Dies, die extrem hohe Datentransferraten liefern. Das ist fürs KI-Training wichtig, bei dem riesige Datenbestände an Trainingsdaten durchforstet werden.

HBM-PIM opfert nun einen Teil der Siliziumfläche für vergleichsweise einfache Rechenwerke für FP16-Gleitkommazahlen: Addierer (Add) und Multiplizierer (Mul), die direkt mit den DRAM-Zellenfeldern verbunden sind. Diese Rechenwerke können also die bereits im DRAM gespeicherten Daten verarbeiten, ohne sie erst via Speicher-Controller und die Caches in die Rechenwerke des Prozessors zu schaufeln.

Ergebnisse statt Daten

HBM-PIM liefert sozusagen anstelle der Rohdaten gleich ein Ergebnis, falls die zur Verfügung stehenden FP16-Rechenoperationen Add, Multiply, Multiply-Accumulate (MAC) und Multiply plus Add (MAD) für den Algorithmus ausreichen.

Laut Samsung kann HBM-PIM um bis zu 70 Prozent effizienter rechnen als ein herkömmlicher Prozessor und gleichzeitig doppelt so schnell. Die aggregierte FP16-Rechenleistung eines HBM-PIM mit 6 GByte Kapazität soll 1,2 TFlops betragen. Die Programmable Compute Units (PCUs) laufen mit 300 MHz, das liegt im Bereich der Taktfrequenz der einzelnen Speicherzellen.