Superschnelles RAM & PCI Express: DDR6, LPDDR6, GDDR7, HBM4 und PCIe 7.0

Hardware-Hersteller rüsten sich für immer schnellere Speichertypen und Schnittstellen: ein aktueller Überblick mit Vorhersagen.

In Pocket speichern vorlesen Druckansicht 39 Kommentare lesen
Blick in einen Server mit CPU & RAM.

Ein Intel-Server mit DDR5-Speicherriegeln; DDR6 lässt noch etwas auf sich warten.

(Bild: c’t)

Lesezeit: 9 Min.
Inhaltsverzeichnis

Die RAM-Typen GDDR7 und LPDDR6 sowie PCI Express 6.0 leiten den nächsten Generationswechsel zu noch schnellerem Arbeitsspeicher und Schnittstellen ein. Aber auch die Planungen für HBM4, DDR6 und PCIe 7.0 laufen bereits. Ein Überblick.

Ziel ist in allen Fällen vor allem höhere Datentransferrate. Denn speziell Grafikprozessoren und KI-Beschleuniger profitieren von schnellem RAM. Und weil KI-Beschleuniger als Neural Processing Units (NPUs) in immer mehr CPUs beziehungsweise Systems-on-Chip einziehen, verspricht schnelleres RAM Vorteile. Anders als bei CPU-Code oder PC-Spielen wirken schnelle Caches bei mehrere Gigabyte großen KI-Modellen nicht so gut, weil die Caches für diese Aufgaben viel zu klein sind.

Um auf höhere Datentransferraten zu kommen, sind Änderungen nötig, etwa beim Modulationsverfahren der Datensignale. Außerdem sind einige Generationswechsel aneinander gekoppelt. So benötigen kommende Server mit PCIe 6.0 oder 7.0 auch deutlich schnelleres RAM, damit sich die höhere PCIe-Datentransferrate ausreizen lässt – irgendwo müssen die Daten schließlich hinfließen.

Zudem zielen die Spezifikationen von DDRx und LPDDRx der jeweils selben Generation auf möglichst große Ähnlichkeit, um Entwicklungsaufwand einzusparen.

Das Verfahren Double Data Rate (DDR) überträgt pro Taktschritt zwei Datenbits, um die Transferrate zu steigern. Das Konzept stößt irgendwann an Grenzen, weil beispielsweise zu viele Übertragungsfehler auftreten, keine ausreichend langen Leitungspfade mehr überwunden werden oder die internen Transceiver-Schaltungen (Leitungstreiber) der Chips zu kompliziert und teuer werden.

Daher setzen viele der neuen RAM- und Interconnect-Generationen auf Verfahren, die pro Transfer mehr als ein Bit (0 oder 1) übertragen, etwa mithilfe von Pulsamplitudenmodulation (PAM) mit drei oder vier Spannungspegeln (PAM3, PAM4). Außerdem können zusätzliche oder verbesserte Korrekturverfahren die Bitfehlerrate (Bit Error Rate, BER) senken.

Je nach Anwendungszweck passen unterschiedliche Modulations- und Fehlerkorrekturverfahren besser. Bei DDR-RAM geht es um viele Chips auf Modulen an einem gemeinsamen Bus, der zwar nicht sehr lange Leitungen hat, aber mehrere Störstellen: DIMM-Steckfassungen, CPU-Fassungen, Lötkontakte. LPDDR kann höher takten, weil die DRAM-Chips aufgelötet sind oder auf einem optimierten Compression Attached Memory Module (CAMM) sitzen. Für RAM wiederum sind niedrige Latenzen wichtiger als für PCI Express, wo es auf längere, aber möglichst wenige Leitungen und sogar Kabel ankommt.

Micron hat bereits GDDR7-SGRAM für Grafikkarten angekündigt.

(Bild: Micron)

Noch im laufenden Jahr 2024 könnten GDDR7-Chips starten, und zwar auf Grafikkarten vom Typ Nvidia RTX 5000 "Blackwell". Das Spezifikationsgremium JEDEC hat die GDDR7-Spezifikation bereits im März veröffentlicht.

Während GDDR6 und GDDR6X höchstens 24 Gigabit pro Sekunde (Gbit/s) übertragen, könnte GDDR7 mit 32 Gbit/s starten und im Laufe der Zeit auf bis zu 48 Gbit/s hochgehen. Ein einzelner Chip mit 32 Datensignalleitungen (x32) würde dann 192 GByte/s liefern. Eine GPU mit 512 Speicherleitungen käme sogar schon mit den ersten 32-Gbit/s-Chips auf 2 TByte pro Sekunde. Das ist zurzeit nur mit viel teurerem High-Bandwidth Memory (HBM) möglich.

Micron ist derzeit der einzige Hersteller von GDDR6X und nutzt dabei PAM4, um zwei Bits pro Transfer zu übertragen. Bei der JEDEC einigten sich die Firmen für GDDR7 aber auf PAM3. Dabei wird jeweils ein 256-Bit-Datenwort encodiert und in acht aufeinanderfolgenden Transferzyklen übertragen. Laut Cadence verspricht PAM3 ein besseres Signalrauschverhältnis (SNR) und höhere Spannungstoleranz als PAM4, ist also störfester.

Neu ist bei GDDR7 auch, dass sich ein x32-Kanal in vier 8-Bit-Kanäle aufspalten lässt. Das kann Vorteile bringen, wenn die GPU parallel unterschiedliche Adressbereiche beackert.

An LPDDR6-SDRAM arbeitet die JEDEC bereits, nennt aber noch keine Termine. Laut Spekulationen könnte Qualcomms im Herbst erwartete Smartphone-Prozessor Snapdragon 8 Gen 4 mit sehr starken ARM-Kernen bereits für LPDDR6 gerüstet sein.

Zu LPDDR6 sind einige Details bereits an die Öffentlichkeit geraten. Im Vergleich zum derzeit schnellsten LPDDR5X-9600-RAM könnte die Übertragungsrate auf 10,667 bis 14,4 Gbit/s (LPDDR6-10677, LPDDR6-14400) steigen. Das wirkt zunächst wie eine geringe Steigerung, aber gleichzeitig sollen statt je 16 Bit dann 24 Bit pro Transfer auf die Reise gehen. Statt x16- und x32-Chips sind also x24-Chips geplant, bei denen sich dieser breitere Kanal aber in zwei x12-Unterkanäle aufteilen lässt. Solche Subchannels gibt es auch bei DDR5-DIMMs, aber je 32 Bit breit.

Der Sprung von 9,6 Milliarden Transfers zu je 16 Bit (9,6 GT/s × 2 Byte = 19,2 GByte/s) auf 10,667 GT/s × 24 Bit (32 GByte/s) wäre beträchtlich.

Low-Power-(LP-)DDR-SDRAM kommt außer in Smartphones schon lange auch in Notebooks zum Einsatz. Mit der Bauform LPCAMM2 stehen nun auch steckbare, also nachträglich auswechselbare LPDDRx-Module bereit.

Manche Hersteller nutzen LPDDR-RAM auch, um durch sehr viele Kanäle besonders hohe RAM-Transferraten zu erzielen, etwa Apple bei den Mx-Prozessoren und Nvidia beim ARM-Serverprozessor Grace.

Datentransferraten aktueller und kommender RAM- und PCIe-Typen
Geschwindigkeitsklasse Transferrate
pro Pin/Lane pro Chip/Modul/Karte und Richtung
DDR5-5600 5,60 Gbit/s 44,8 GByte/s
DDR5-7200 7,20 Gbit/s 57,6 GByte/s
MCR-DIMM (Rank Multiplexing) 4,40 Gbit/s 70,4 GByte/s
DDR5-8800 8,80 Gbit/s 70,4 GByte/s
DDR6-9600 9,60 Gbit/s 76,8 GByte/s
DDR6-17600 17,60 Gbit/s 140,8 GByte/s
DDR6-21000 (MCR?) k.A. 168,0 GByte/s
LPRDDR5X-9600 x16 9,60 Gbit/s 19,2 GByte/s
LPRDDR5X-9600 x64 (x32 ×2) 9,60 Gbit/s 76,8 GByte/s
LPDDR6-10667 x24 (x12 ×2) 10,67 Gbit/s 32,0 GByte/s
LPDDR6-10667 x96 (x24 ×4) 10,67 Gbit/s 128,0 GByte/s
GDDR6(X), x384 24,00 Gbit/s 1152,0 GByte/s
GDDR6(X), x512 24,00 Gbit/s 1536,0 GByte/s
GDDR7, x384 32,00 Gbit/s 1536,0 GByte/s
GDDR7, x512 32,00 Gbit/s 2048,0 GByte/s
GDDR7, x512 48,00 Gbit/s 3072,0 GByte/s
HBM3e, 6 Stacks @ 0,8 TByte/s k.A. 4800,0 GByte/s
HBM4, 8 Stacks @ 1,5 TByte/s k.A. 12000,0 GByte/s
PCIe 5.0 x1 32 GT/s 4,0 GByte/s
PCIe 5.0 x4 32 GT/s 16,0 GByte/s
PCIe 5.0 x16 32 GT/s 64,0 GByte/s
PCIe 6.0 x1 64 GT/s 8,0 GByte/s
PCIe 6.0 x4 64 GT/s 32,0 GByte/s
PCIe 6.0 x16 64 GT/s 128,0 GByte/s
PCIe 7.0 x1 128 GT/s 16,0 GByte/s
PCIe 7.0 x4 128 GT/s 64,0 GByte/s
PCIe 7.0 x16 128 GT/s 256,0 GByte/s
Ethernet 10G 1,2 GByte/s
Ethernet 200G 24,0 GByte/s
Ethernet 400G 48,0 GByte/s
Ethernet 800G 96,0 GByte/s
NVLink Gen 4 x18 50 GT/s 450,0 GByte/s
NVLink Gen 5 x18 100 GT/s 900,0 GByte/s

Zu DDR6-SDRAM ist noch wenig bekannt, aber es laufen offenbar Vorarbeiten. Vor einigen Monaten tauchten Präsentationsfolien auf, laut denen eine Arbeitsgruppe noch 2024 einen Entwurf plant; eine erste Spezifikation soll dann 2025 erscheinen. Fraglich, ob vor 2027 schon DDR6-taugliche Prozessoren kommen.

DDR5 hat die JEDEC bis DDR5-8800 spezifiziert, außerdem gibt es für bestimmte Server DIMMs mit Multiplexer Combined Ranks (MCR-DIMMs), die noch höhere Transferraten schaffen. Laut Spekulationen könnte DDR6 ebenfalls mit 8,8 Gbit/s starten (DDR-8800) und zunächst bis DDR6-17600 spezifiziert werden, später auch mit DDR6-21000.

Es ist wohl noch nicht entschieden, ob bei DDR6 Verfahren wie PAM3 oder PAM4 zum Einsatz kommen. Es scheint aber unwahrscheinlich, wenn LPDDR6 bei der bisherigen DDR-Signalisierung bleibt und stattdessen auf breitere Kanäle setzt. Es könnte aber sein, dass DDR6 bei sehr hohen Frequenzen nur noch ein Modul pro Kanal vorsieht (1 DIMM per Channel, 1DPC). Das ist auch bei MCR-DIMMs der Fall. Die JEDEC könnte die MCR-Technik in den DDR6-Standard aufnehmen und damit DDR6-10500 per Rank-Multiplexing schwuppdiwupp in DDR6-21000 verwandeln. Die resultierende Datentransferrate von 168 GByte/s pro Kanal ist wohl auf längere Zeit nur für spezielle HPC-Server wichtig.

Nvidias CEO Jensen Huang kündigte anlässlich der Computex 2024 die Chipgenerationen Vera Rubin an, also den ARM-Prozessor "Vera" und den begleitenden KI-Beschleuniger "Rubin". Letzterer soll High-Bandwidth Memory der vierten Generation nutzen, also HBM4, und zwar entweder acht Stapel (8 Stacks, Rubin) oder bei Vera Ultra sogar 12 Stacks.

Nvidia-Chef Jensen Huang kündigte die KI-Beschleunigergeneration "Rubin" mit 8 oder 12 HBM4-Stacks an.

(Bild: c't / chh)

Der (noch) aktuelle Nvidia-Beschleuniger H200 "Hopper" mit 144 GByte HBMe3 hat sechs 24-GByte-Stacks mit je acht Chiplagen (8-Hi HBM3e). Jeder Stack liefert 0,8 TByte/s, alle sechs zusammen also 4,8 TByte/s.

Laut Micron kann ein HBM3e-Stack aber bis zu 1,2 TByte/s schaffen. Mit acht Stacks wären schon mit HBM3e 9,6 TByte/s möglich; laut einer älteren Micron-Roadmap sind für HBM4 mehr als 1,5 TByte/s pro Stack geplant und für HBM4e dann rund 2 TByte/s, also 25 bis 66 Prozent mehr als bei HBM3e. HBM4 könnte 2025 oder eher 2026 kommen.

Die Spezifikation für PCI Express 6.0 mit 64 GT/s pro Lane wurde schon vor mehr als zwei Jahren veröffentlicht. Dabei wurde nicht nur PAM4 eingeführt, sondern auch bessere Fehlerkorrektur per Forward Error Correction (FEC) von definierten Datenpaketen, sogenannten Flow Control Units (FLITs).

Bisher ist aber noch keine PCIe-6.0-Hardware im Handel. Nach Spekulationen könnte Intel 2025 die Serverprozessoren der Generation Xeon 7 "Diamond Rapids" mit PCIe 6.0 vorstellen.

Durch die lange Verzögerung bei PCIe 4.0 kam der Umstieg auf PCIe 5.0 relativ kurz danach. Nun scheinen wieder mehrere Jahre zwischen den Generationswechseln einzukehren. Mit PCIe-7.0-Hardware und 128 GT/s pro Lane wäre dann frühestens 2027 oder 2028 zu rechnen.

Der Vergleich der Datentransferraten von PCIe mit RAM hinkt, weil eine PCIe-Lane tatsächlich Daten gleichzeitig in beide Richtungen übertragen kann. Einen RAM-Kanal kann der Speicher-Controller der GPU oder GPU aber nur entweder lesen oder schreiben. In der Tabelle oben stehen daher die Datentransferraten pro Richtung.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(ciw)