2028 kommen gestapelte GPUs

Optisch wird Nvidias übernächster KI-Beschleuniger Feynman viel kleiner. Statt Chips nebeneinander zu setzen, liegen sie ab 2028 übereinander.

6

(Bild: Nvidia)

17:21 Uhr

Lesezeit: 2 Min.

Von

Mark Mantel

Gestapelte Logikchips sollen 2028 Realität werden. Nvidia will bei seiner übernächsten Generation Feynman mehrere GPU-Dies für seine KI-Beschleuniger übereinanderstapeln. Das bestätigte Firmenchef Jensen Huang bei der Eröffnung der Hausmesse GTC 2026 (im Video ab 2:12:33).

Eine GPU-Skizze auf Nvidias Roadmap sieht daher deutlich kleiner aus als die nächsten beiden KI-Beschleuniger Rubin sowie Rubin Ultra. Dort sitzen GPU-Dies und Speicherstapel nebeneinander, wobei ein Silizium-Interposer die Datenverbindungen herstellt. Diese Konstruktion nennen Hersteller 2,5D-Stacking.

Feynman folgt auf Rubin und Rubin Ultra.

(Bild: Nvidia)

Hitzeentwicklung problematisch

3D-Stacking mit mehreren Logikchips übereinander hat Vorteile, vor allem bei der Signalführung. Bisher konnten Chipfertiger allerdings ein Problem noch nicht für ein Serienprodukt lösen: die Wärmeabfuhr der unteren Dies. Die Kühllösung wird bei Feynman besonders spannend, da der KI-Beschleuniger über 2000 Watt elektrische Leistungsaufnahme gehen könnte. Zu den Details hat sich Nvidia bislang allerdings nicht geäußert.

3D-Stacking gibt es bislang nur mit Cache-Chiplets in größerem Maßstab. Der Chipauftragsfertiger TSMC und AMD etwa stapeln bei den Ryzen-X3D-Prozessoren CPU-Chiplets und Level-3-Cache. In dem Fall erzeugt der Speicher wenig Abwärme, sodass die Kühlung hinhaut. AMD forscht ebenfalls an komplexeren 3D-Stacking-Konstruktionen.

Videos by heise

Erste Generation mit angepasstem HBM

Zusätzlich zur Stapelbauweise will Nvidia bei Feynman erstmals Custom High-Bandwidth Memory (cHBM) einsetzen. Dabei handelt es sich um einen Vorstoß der Speicherhersteller Samsung, SK Hynix und Micron sowie Zulieferern wie Marvell: Kunden wie Nvidia können beim cHBM eigene Logik zur Ansteuerung der Speicherstapel entwerfen und diese in eigene Prozessoren oder GPUs integrieren.

Bisher sitzt die Logik immer in einem Basis-Die, das die Speicherhersteller produzieren und unter die DRAM-Ebenen setzen. Der größte Nachteil dabei: Die Fertigungstechnik der Speicherhersteller ist auf DRAM spezialisiert. Wandern die Basis-Die-Transistoren in eine CPU oder GPU, kann sie etwa TSMC mit Logikfokus produzieren. Das spart potenziell Platz und erhöht die Effizienz. Zudem können Kunden die cHBM-Ansteuerung so an die eigenen Bedürfnisse anpassen.

Zusätzlich zu Feynman erscheint 2028 eine Fülle neuer Chips: Nvidias eigener ARM-Prozessor Rosa, der Netzwerkprozessor Bluefield-5, mehrere Switches und der auf Inferenz spezialisierte KI-Beschleuniger LP40 in Kooperation mit Groq.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Preisvergleiche immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.