Superschnelles RAM & PCI Express: DDR6, LPDDR6, GDDR7, HBM4 und PCIe 7.0
Hardware-Hersteller rĂĽsten sich fĂĽr immer schnellere Speichertypen und Schnittstellen: ein aktueller Ăśberblick mit Vorhersagen.
Die RAM-Typen GDDR7 und LPDDR6 sowie PCI Express 6.0 leiten den nächsten Generationswechsel zu noch schnellerem Arbeitsspeicher und Schnittstellen ein. Aber auch die Planungen für HBM4, DDR6 und PCIe 7.0 laufen bereits. Ein Überblick.
Mehr Speed
Ziel ist in allen Fällen vor allem höhere Datentransferrate. Denn speziell Grafikprozessoren und KI-Beschleuniger profitieren von schnellem RAM. Und weil KI-Beschleuniger als Neural Processing Units (NPUs) in immer mehr CPUs beziehungsweise Systems-on-Chip einziehen, verspricht schnelleres RAM Vorteile. Anders als bei CPU-Code oder PC-Spielen wirken schnelle Caches bei mehrere Gigabyte großen KI-Modellen nicht so gut, weil die Caches für diese Aufgaben viel zu klein sind.
Um auf höhere Datentransferraten zu kommen, sind Änderungen nötig, etwa beim Modulationsverfahren der Datensignale. Außerdem sind einige Generationswechsel aneinander gekoppelt. So benötigen kommende Server mit PCIe 6.0 oder 7.0 auch deutlich schnelleres RAM, damit sich die höhere PCIe-Datentransferrate ausreizen lässt – irgendwo müssen die Daten schließlich hinfließen.
Zudem zielen die Spezifikationen von DDRx und LPDDRx der jeweils selben Generation auf möglichst große Ähnlichkeit, um Entwicklungsaufwand einzusparen.
Mehr Bits pro Taktschritt
Das Verfahren Double Data Rate (DDR) überträgt pro Taktschritt zwei Datenbits, um die Transferrate zu steigern. Das Konzept stößt irgendwann an Grenzen, weil beispielsweise zu viele Übertragungsfehler auftreten, keine ausreichend langen Leitungspfade mehr überwunden werden oder die internen Transceiver-Schaltungen (Leitungstreiber) der Chips zu kompliziert und teuer werden.
Daher setzen viele der neuen RAM- und Interconnect-Generationen auf Verfahren, die pro Transfer mehr als ein Bit (0 oder 1) übertragen, etwa mithilfe von Pulsamplitudenmodulation (PAM) mit drei oder vier Spannungspegeln (PAM3, PAM4). Außerdem können zusätzliche oder verbesserte Korrekturverfahren die Bitfehlerrate (Bit Error Rate, BER) senken.
Je nach Anwendungszweck passen unterschiedliche Modulations- und Fehlerkorrekturverfahren besser. Bei DDR-RAM geht es um viele Chips auf Modulen an einem gemeinsamen Bus, der zwar nicht sehr lange Leitungen hat, aber mehrere Störstellen: DIMM-Steckfassungen, CPU-Fassungen, Lötkontakte. LPDDR kann höher takten, weil die DRAM-Chips aufgelötet sind oder auf einem optimierten Compression Attached Memory Module (CAMM) sitzen. Für RAM wiederum sind niedrige Latenzen wichtiger als für PCI Express, wo es auf längere, aber möglichst wenige Leitungen und sogar Kabel ankommt.
GDDR7 fĂĽr GPUs
Noch im laufenden Jahr 2024 könnten GDDR7-Chips starten, und zwar auf Grafikkarten vom Typ Nvidia RTX 5000 "Blackwell". Das Spezifikationsgremium JEDEC hat die GDDR7-Spezifikation bereits im März veröffentlicht.
Während GDDR6 und GDDR6X höchstens 24 Gigabit pro Sekunde (Gbit/s) übertragen, könnte GDDR7 mit 32 Gbit/s starten und im Laufe der Zeit auf bis zu 48 Gbit/s hochgehen. Ein einzelner Chip mit 32 Datensignalleitungen (x32) würde dann 192 GByte/s liefern. Eine GPU mit 512 Speicherleitungen käme sogar schon mit den ersten 32-Gbit/s-Chips auf 2 TByte pro Sekunde. Das ist zurzeit nur mit viel teurerem High-Bandwidth Memory (HBM) möglich.
Micron ist derzeit der einzige Hersteller von GDDR6X und nutzt dabei PAM4, um zwei Bits pro Transfer zu übertragen. Bei der JEDEC einigten sich die Firmen für GDDR7 aber auf PAM3. Dabei wird jeweils ein 256-Bit-Datenwort encodiert und in acht aufeinanderfolgenden Transferzyklen übertragen. Laut Cadence verspricht PAM3 ein besseres Signalrauschverhältnis (SNR) und höhere Spannungstoleranz als PAM4, ist also störfester.
Neu ist bei GDDR7 auch, dass sich ein x32-Kanal in vier 8-Bit-Kanäle aufspalten lässt. Das kann Vorteile bringen, wenn die GPU parallel unterschiedliche Adressbereiche beackert.
LPDDR6 fĂĽr Smartphones, Notebooks und HPC
An LPDDR6-SDRAM arbeitet die JEDEC bereits, nennt aber noch keine Termine. Laut Spekulationen könnte Qualcomms im Herbst erwartete Smartphone-Prozessor Snapdragon 8 Gen 4 mit sehr starken ARM-Kernen bereits für LPDDR6 gerüstet sein.
Zu LPDDR6 sind einige Details bereits an die Öffentlichkeit geraten. Im Vergleich zum derzeit schnellsten LPDDR5X-9600-RAM könnte die Übertragungsrate auf 10,667 bis 14,4 Gbit/s (LPDDR6-10677, LPDDR6-14400) steigen. Das wirkt zunächst wie eine geringe Steigerung, aber gleichzeitig sollen statt je 16 Bit dann 24 Bit pro Transfer auf die Reise gehen. Statt x16- und x32-Chips sind also x24-Chips geplant, bei denen sich dieser breitere Kanal aber in zwei x12-Unterkanäle aufteilen lässt. Solche Subchannels gibt es auch bei DDR5-DIMMs, aber je 32 Bit breit.
Der Sprung von 9,6 Milliarden Transfers zu je 16 Bit (9,6 GT/s × 2 Byte = 19,2 GByte/s) auf 10,667 GT/s × 24 Bit (32 GByte/s) wäre beträchtlich.
Low-Power-(LP-)DDR-SDRAM kommt außer in Smartphones schon lange auch in Notebooks zum Einsatz. Mit der Bauform LPCAMM2 stehen nun auch steckbare, also nachträglich auswechselbare LPDDRx-Module bereit.
Manche Hersteller nutzen LPDDR-RAM auch, um durch sehr viele Kanäle besonders hohe RAM-Transferraten zu erzielen, etwa Apple bei den Mx-Prozessoren und Nvidia beim ARM-Serverprozessor Grace.
Datentransferraten aktueller und kommender RAM- und PCIe-Typen | ||
Geschwindigkeitsklasse | Transferrate | |
pro Pin/Lane | pro Chip/Modul/Karte und Richtung | |
DDR5-5600 | 5,60 Gbit/s | 44,8 GByte/s |
DDR5-7200 | 7,20 Gbit/s | 57,6 GByte/s |
MCR-DIMM (Rank Multiplexing) | 4,40 Gbit/s | 70,4 GByte/s |
DDR5-8800 | 8,80 Gbit/s | 70,4 GByte/s |
DDR6-9600 | 9,60 Gbit/s | 76,8 GByte/s |
DDR6-17600 | 17,60 Gbit/s | 140,8 GByte/s |
DDR6-21000 (MCR?) | k.A. | 168,0 GByte/s |
LPRDDR5X-9600 x16 | 9,60 Gbit/s | 19,2 GByte/s |
LPRDDR5X-9600 x64 (x32 Ă—2) | 9,60 Gbit/s | 76,8 GByte/s |
LPDDR6-10667 x24 (x12 Ă—2) | 10,67 Gbit/s | 32,0 GByte/s |
LPDDR6-10667 x96 (x24 Ă—4) | 10,67 Gbit/s | 128,0 GByte/s |
GDDR6(X), x384 | 24,00 Gbit/s | 1152,0 GByte/s |
GDDR6(X), x512 | 24,00 Gbit/s | 1536,0 GByte/s |
GDDR7, x384 | 32,00 Gbit/s | 1536,0 GByte/s |
GDDR7, x512 | 32,00 Gbit/s | 2048,0 GByte/s |
GDDR7, x512 | 48,00 Gbit/s | 3072,0 GByte/s |
HBM3e, 6 Stacks @ 0,8 TByte/s | k.A. | 4800,0 GByte/s |
HBM4, 8 Stacks @ 1,5 TByte/s | k.A. | 12000,0 GByte/s |
PCIe 5.0 x1 | 32 GT/s | 4,0 GByte/s |
PCIe 5.0 x4 | 32 GT/s | 16,0 GByte/s |
PCIe 5.0 x16 | 32 GT/s | 64,0 GByte/s |
PCIe 6.0 x1 | 64 GT/s | 8,0 GByte/s |
PCIe 6.0 x4 | 64 GT/s | 32,0 GByte/s |
PCIe 6.0 x16 | 64 GT/s | 128,0 GByte/s |
PCIe 7.0 x1 | 128 GT/s | 16,0 GByte/s |
PCIe 7.0 x4 | 128 GT/s | 64,0 GByte/s |
PCIe 7.0 x16 | 128 GT/s | 256,0 GByte/s |
Ethernet 10G | 1,2 GByte/s | |
Ethernet 200G | 24,0 GByte/s | |
Ethernet 400G | 48,0 GByte/s | |
Ethernet 800G | 96,0 GByte/s | |
NVLink Gen 4 x18 | 50 GT/s | 450,0 GByte/s |
NVLink Gen 5 x18 | 100 GT/s | 900,0 GByte/s |
DDR6 fĂĽr Desktop-PCs und Server
Zu DDR6-SDRAM ist noch wenig bekannt, aber es laufen offenbar Vorarbeiten. Vor einigen Monaten tauchten Präsentationsfolien auf, laut denen eine Arbeitsgruppe noch 2024 einen Entwurf plant; eine erste Spezifikation soll dann 2025 erscheinen. Fraglich, ob vor 2027 schon DDR6-taugliche Prozessoren kommen.
DDR5 hat die JEDEC bis DDR5-8800 spezifiziert, außerdem gibt es für bestimmte Server DIMMs mit Multiplexer Combined Ranks (MCR-DIMMs), die noch höhere Transferraten schaffen. Laut Spekulationen könnte DDR6 ebenfalls mit 8,8 Gbit/s starten (DDR-8800) und zunächst bis DDR6-17600 spezifiziert werden, später auch mit DDR6-21000.
Es ist wohl noch nicht entschieden, ob bei DDR6 Verfahren wie PAM3 oder PAM4 zum Einsatz kommen. Es scheint aber unwahrscheinlich, wenn LPDDR6 bei der bisherigen DDR-Signalisierung bleibt und stattdessen auf breitere Kanäle setzt. Es könnte aber sein, dass DDR6 bei sehr hohen Frequenzen nur noch ein Modul pro Kanal vorsieht (1 DIMM per Channel, 1DPC). Das ist auch bei MCR-DIMMs der Fall. Die JEDEC könnte die MCR-Technik in den DDR6-Standard aufnehmen und damit DDR6-10500 per Rank-Multiplexing schwuppdiwupp in DDR6-21000 verwandeln. Die resultierende Datentransferrate von 168 GByte/s pro Kanal ist wohl auf längere Zeit nur für spezielle HPC-Server wichtig.
HBM4 fĂĽr KI-Beschleuniger
Nvidias CEO Jensen Huang kündigte anlässlich der Computex 2024 die Chipgenerationen Vera Rubin an, also den ARM-Prozessor "Vera" und den begleitenden KI-Beschleuniger "Rubin". Letzterer soll High-Bandwidth Memory der vierten Generation nutzen, also HBM4, und zwar entweder acht Stapel (8 Stacks, Rubin) oder bei Vera Ultra sogar 12 Stacks.
Der (noch) aktuelle Nvidia-Beschleuniger H200 "Hopper" mit 144 GByte HBMe3 hat sechs 24-GByte-Stacks mit je acht Chiplagen (8-Hi HBM3e). Jeder Stack liefert 0,8 TByte/s, alle sechs zusammen also 4,8 TByte/s.
Laut Micron kann ein HBM3e-Stack aber bis zu 1,2 TByte/s schaffen. Mit acht Stacks wären schon mit HBM3e 9,6 TByte/s möglich; laut einer älteren Micron-Roadmap sind für HBM4 mehr als 1,5 TByte/s pro Stack geplant und für HBM4e dann rund 2 TByte/s, also 25 bis 66 Prozent mehr als bei HBM3e. HBM4 könnte 2025 oder eher 2026 kommen.
PCIe 6.0 und 7.0
Die Spezifikation für PCI Express 6.0 mit 64 GT/s pro Lane wurde schon vor mehr als zwei Jahren veröffentlicht. Dabei wurde nicht nur PAM4 eingeführt, sondern auch bessere Fehlerkorrektur per Forward Error Correction (FEC) von definierten Datenpaketen, sogenannten Flow Control Units (FLITs).
Bisher ist aber noch keine PCIe-6.0-Hardware im Handel. Nach Spekulationen könnte Intel 2025 die Serverprozessoren der Generation Xeon 7 "Diamond Rapids" mit PCIe 6.0 vorstellen.
Durch die lange Verzögerung bei PCIe 4.0 kam der Umstieg auf PCIe 5.0 relativ kurz danach. Nun scheinen wieder mehrere Jahre zwischen den Generationswechseln einzukehren. Mit PCIe-7.0-Hardware und 128 GT/s pro Lane wäre dann frühestens 2027 oder 2028 zu rechnen.
Der Vergleich der Datentransferraten von PCIe mit RAM hinkt, weil eine PCIe-Lane tatsächlich Daten gleichzeitig in beide Richtungen übertragen kann. Einen RAM-Kanal kann der Speicher-Controller der GPU oder GPU aber nur entweder lesen oder schreiben. In der Tabelle oben stehen daher die Datentransferraten pro Richtung.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
(ciw)