AMD erläutert Instinct-Beschleuniger MI355X und kappt den Speicher bei MI325X

Mit 9,2 FP6-Pflops soll AMDs Instinct MI355X in der zweiten Hälfte 2025 gegen Nvidias Blackwell bestehen. MI325X "verliert" 32 GByte Speicher.

AMDs Instinct MI325X als Modul für Rechenzentren.

(Bild: AMD)

10.10.2024, 20:00 Uhr

Lesezeit: 6 Min.

c't Magazin

Von

Carsten Spille

AMD erläutert Instinct-Beschleuniger MI355X und kappt den Speicher bei MI325X

Auf AMDs Hausmesse Advancing AI im kalifornischen San Francisco stellte der Konzern erneut seine KI-Strategie und die passenden Produkte ins Rampenlicht. Während die Hoffnungen in die MI355X fürs Jahr 2025 groß sind, bekommt die aktuelle Generation in Form des MI325X ein kleineres Speicherupgrade als zuvor gedacht. Auch bei der Software ist AMD nicht untätig und will mit Fortschritten bei der hauseigenen ROCm-Version 6.2 gegenüber 6.0 bis zum Doppelten der Performance beim KI-Training herausgeholt haben, beim Inferencing sogar bis zu Faktor 2,8. Das gelang etwa durch Verbesserungen beim Kernel, der Parallelisierung und Änderungen bei der Verteilung auf verschiedene Rechenbeschleuniger; im sich rasend schnell entwickelnden KI-Umfeld sind solche Steigerungen durch Software-Optimierungen allerdings nicht unüblich – andererseits auch kein Zeichen von schlechter (älterer) Software.

MI355X: CDNA4 mit FP4 und FP6 für H2 2025

AMD setzt vorerst weiter auf seine CDNA-Architektur. Erste Chiplets mit 3-Nanometer-Prozesstechnik des Chipauftragsfertigers TSMC sollen mit der CDNA4-Generation kommen. Die ersten Beschleuniger mit dieser Architektur kommen in der Instinct MI355X zum Einsatz, deren Marktstart AMD für die zweite Jahreshälfte 2025 plant.

Sie soll außer dem derzeitigen HBM3e-Maximum von 288 GByte für acht Speicherstapel auch deutlich mehr Rechenleistung haben. Diesen Punkt hatte AMD während der Computex-Ersterwähnung noch etwas im Dunklen gelassen, nur über einen Leistungsfaktor von 35 im Vergleich zur aktuellen MI300X gesprochen. Der kommt allerdings mit den in der MI355X unterstützten, sparsameren Datenformaten FP4 und enorm großen KI-Modellen zustande. Den konkreten Rechendurchsatz in Teraflops (Billionen Rechenschritten pro Sekunde also) ließ AMD nun aber auch vom Stapel: Mit FP16-Genauigkeit sollen es rund 2300 TFlops sein, 77 Prozent mehr als bei MI300X/MI325X. Entsprechend steigt auch der FP8-Durchsatz auf 4600 TFlops und liegt damit nur knapp hinter Nvidias Blackwell B200. Allerdings setzt AMD bislang seinen Vorsprung auf dem Papier nicht 1:1 in Mehrleistung beim KI-Training oder -Inferencing um – hier muss mit CDNA4 auch eine Effizienzsteigerung her. Apropos: Konkrete TDP-Angaben fehlen noch, man orientiere sich aber am Industrie-Trend. Sprich, es wird wohl deutlich über ein Kilowatt.

Ein Universal Baseboard (UBB) ist die Basis für die meisten KI-Server und fasst acht Beschleuniger im Standard Open Accelerator Module.

(Bild: AMD)

Wie Blackwell unterstützt AMD bei CDNA4 auch die sparsameren Floating-Point-Formate FP4 und FP6 als Block-Data-Type. Bei entsprechender Auslegung der Rechenwerke können diese mit FP4 doppelt soviele Operationen pro Taktschritt ausführen wie mit FP8, rechnerisch also 9200 TFlops. Das hat Nvidia mit Blackwell auch so vorgemacht und erreicht damit knapp 10.000 TFlops. AMD geht aber einen Schritt weiter und legt die MI355X anders als Nvidias Blackwell sogar für FP6 mit doppeltem Durchsatz gegenüber FP8 aus. Hier sind es dann mit 9200 zu 5000 TFlops deutlich mehr. Doch FP6 und FP4 haben noch weitere Vorteile: Durch den geringeren Speicherverbrauch passen laut AMD KI-Modelle mit bis zu 4200 Milliarden Parametern in den 2,3 TByte großen Speicher eines Achterpacks aus Universal Baseboards (UBB). Bei MI325X sind es nur 1800 Milliarden.

Die Speichertransferrate liegt mit 8 TByte/s auf Blackwell-Niveau und circa ein Drittel über MI300X. Zur wichtigen GPU-zu-GPU-Verbindung macht AMD noch keine Angaben; bei der MI325X liegt diese bei 896 GByte/s.

MI325X nur noch mit 256 GByte Speicher

Für AMDs auf der Computex 2024 erstmals gezeigten, bis zu einer TDP von 1000 Watt konfigurierbaren Instinct-Beschleuniger MI325X gibt es auf technischer Seite eher schlechte Nachrichten. AMD hat sich entschieden, die Option auf "bis zu" 288 GByte HBM3e-Stapelspeicher nicht zu ziehen und nur die nächstkleinere Ausbaustufe mit 256 GByte an den Start zu bringen. Die auf Nachfrage geäußerten Gründe dafür klingen nicht sehr einleuchtend, so will man durch Software-Optimierungen nun mit etwas weniger Speicher auskommen. Vielleicht sind die nötigen Bausteine mit je 36 GByte einfach zu teuer für den angepeilten Preis geworden oder aufgrund großer Nachfrage derzeit einfach nur ausverkauft.

Die 8er-Packs auf dem Universal Baseboard sollen direkt nach dem Produktionsstart im vierten Quartal 2024 verfügbar sein. Bis es einzelne MI325X-Beschleuniger von Partnern geben wird, dauert es aber noch bis ins erste Quartal 2025. Zu den Preisen äußerte sich AMD nicht konkret. Man habe aber vor, eine bessere Total Cost of Ownership, also integrierte Anschaffungs- und Betriebskosten, zu bieten und gleichzeitig sehr wirtschaftliche Entscheidungen zu treffen. Da AMD davon ausgeht, schneller als Nvidias H200 zu sein, kann man sich eine niedrigere TCO auch bei gleichem Preis ausrechnen.

An den restlichen technischen Daten hat AMD nichts geändert und verweist auf hauseigene Benchmarks, nach denen eine einzelne MI325X beim Training von Metas Llama-2 7B, also mit 7 Milliarden Parametern, 10 Prozent vor Nvidias aktueller H200 läge. Dass sie im Achterpack und beim größeren Modelle Llama-2 70B nur noch gleichauf liegt, spricht allerdings für weiteres Optimierungspotenzial in Software – oder dafür, dass die GPU-GPU-Verbindung in der Praxis nicht so flott funktioniert wie die der Konkurrenz.

Leiser Abgesang auf MI300A?

Wer jetzt vor lauter X-en keine As gesehen hat, hat gut aufgepasst. Zu neuen integrierten Beschleunigern mit CPU-Kernen hat AMD seit dem Launch der Instinct MI300A keine größeren Worte mehr verloren. Auch zur Advancing AI 2024 wollte man nur bestätigen, dass man weiterhin beim Co-Design von CPU und GPU auf ein gut gestaltete Schnittstelle achtet, nicht aber, ob es weiterhin vollintegrierte CPU-Kerne oder -Chiplets auf einem Package mit GPU-Kernen fürs Rechenzentrum geben wird.

Disclaimer: AMD hat Anreise- und Unterkunftskosten des Autors zur Veranstaltung "Advancing AI 2024" übernommen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Preisvergleiche immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.