AMD Ryzen AI 300: Überraschende Details zu Zen 5 sowie RDNA 3.5 und XDNA2

AMD speckt die dicken Zen-5-Kerne der Ryzen AI 300 bei AVX512 ab, aber die integrierte RDNA-3.5-Grafik wurde ebenso deutlich überarbeitet wie XDNA2-KI-Einheit.

86

(Bild: c't / chh)

Update

Stand: 24.07.2024, 15:04 Uhr

Lesezeit: 9 Min.

c't Magazin

Von

Carsten Spille

AMD Ryzen AI 300: Überraschende Details zu Zen 5 sowie RDNA 3.5 und XDNA2

Auf einer Veranstaltung für Journalisten und Analysten im kalifornischen Los Angeles hat AMD weitere Details zu den auf der Computex angekündigten Notebook-Prozessoren Ryzen AI 300 und der darin enthaltenen Technik verraten.

Die Eckdaten der beiden neuen CPUs Ryzen AI 9 HX 370 und Ryzen AI 9 365 sind bereits seit der Computex bekannt, nun aber mit weiteren Details unterfüttert.

Auf dem Techday zeigte AMD auch einige bereits zur Computex angekündigte Copilot+-Notebooks von Acer, Asus, HP und MSI mit Ryzen-AI-300-Prozessor. In mehreren Demo-Anwendungen zeigten speziell die KI-Einheiten – jetzt endlich auch als NPU mit Auslastungsanzeige im Taskmanager sichtbar – was sie konnten. Neben den KI-Tools der Notebook-Hersteller wie Asus’ StoryCube, Acers Live Art, MSIs LMStudio und HPs AI Companion waren auch der Bildgenerator Stable Diffusion XL Turbo oder Topaz Labs' KI-Unterstützer Detailretter und Upscaler Gigapixel 7 zu sehen. Pikantes Detail: Unter den Gaming-Notebooks mit dGPU war keines mit Radeon Mobile.

Update 24.07.2024, 15:00 Uhr

AMD hat im Rahmen eines weiteren Briefings noch ein paar Eckdaten zu den auf der Zen-5-Architektur basierenden Prozessoren Ryzen 9000 und Ryzen AI 300 bekanntgegeben oder präzisiert, darunter Details wie die Größe bestimmter Puffer – eine kompletten Artikel finden Sie wie angekündigt in einer der kommenden c’t-Ausgaben.

Andere Details – wie zum Beispiel die Auftrennung der CPU-Kerne in zwei Compute-Cache-CompleXe (CCX) mit unterschiedlich großen Level-3-Cache-Bereichen in Ryzen AI 300 – haben heise-online-Leser bereits in der Urfassung dieses Artikels lesen können.

Die vier größeren und schnelleren „Classic“-Cores haben 16 MByte L3-Cache, während die acht kleineren „Compact“-Cores sich 8 MByte L3-Cache teilen müssen. Kommunikation zwischen diesen beiden findet mit 32 Byte pro Taktschritt über den Infinity-Fabric statt und erhöht die Latenzzeit etwas, wenn Informationen zwischen den CCX ausgetauscht werden müssen.

Ein kleines Update gab man nun aber doch: Ursprünglich wollte AMD nicht verraten, wieviel Platz man durch die langsameren Compact-Kerne einspart. Bei Zen 4 waren es laut dem Hersteller noch circa 35 Prozent weniger Fläche, die die kleineren Kerne benötigten. Dieser Platzvorteil soll bei Zen 5 prozessneutral auf rund ein Viertel geschrumpft sein, die AMD mit den Compact-Cores gegenüber den Classic-Cores spart.

Videos by heise

Zen 5: Kernkombi

AMD hat bereits in der Vorgängergeneration zwei verschiedene Kernversionen von Zen entwickelt (Zen 4 + Zen 4c), die anders als bei Intels Performance- und Efficiency-Cores aber über denselben Befehlssatz verfügen und sich daher einheitlich ansteuern lassen.

Diese kamen zunächst in den Serverprozessoren Epyc 9704 ("Bergamo") zum Einsatz und sind deutlich kompakter als die Originale – daher auch der Name "Compact" und "Classic"-Cores. Technisch gesprochen sind die Compact-Cores für einen anderen Betriebsbereich auf der Voltage-Frequency-Curve optimiert, aus deren Zusammenspiel sich auch die Effizienz ergibt. Da die Betriebsspannung quadratisch in die Verlustleistung eingeht, kann man fast immer davon ausgehen, dass eine geringere Spannung zu mehr Energieeinsparung führt, als man an Performance verliert, die Schaltungen also effizienter arbeiten. Wer nicht mehr für allerhöchste Frequenzen optimieren muss, kann auch an anderer Stelle sparen und so belegen die Compact-Cores auch deutlich weniger Fläche als die klassischen Versionen.

Die Aufteilung gibt es inzwischen auch für Endanwender im Ryzen 8000G, etwa im 8500G, wo die Zen-4c-Prozessoren im Turbo statt 5 nur 3,7 GHz schaffen und damit rund ein Viertel langsamer sind. In dessen monolothischem Chip sind zugunsten besseren Ansprechverhaltens zwei Classic-Kerne mit höherem Takt und vier kleine Compact-Kerne vereint.

Ähnlich kombiniert AMD die Zen-5-Kerne im Ryzen AI 300: Vier der dicken Zen-5-Kerne sorgen zusammen mit einem Achterpack Compact-Cores für die gewünschte Rechenleistung. Die vollen zwölf Kerne bekommt allerdings nur das Topmodell Ryzen AI 9 HX 370; der Ryzen AI 9 365 (ohne HX-Topmodellzusatz) muss mit einer 2+8-Konfiguration auskommen. Die Taktraten der Compact-Cores in den 300er-CPUs, die standardmäßig mit 28 Watt auskommen und zwischen 15 und 54 Watt konfiguriert werden können, nannte AMD indes nicht.

Die Verbesserungen der Zen-5-Mikroarchitektur gilt größtenteils für beide Kernvarianten – mit Ausnahme von AVX512, wie weiter unten erläutert.

Das Front-End wie auch die Ausführungseinheiten und die Cache-Anbindung hat AMD deutlich umgestaltet. So bearbeiten statt eines nun zwei unabhängige Decoder jeweils vier Instruktionen parallel – jeder mit eigenem Mikro-Op-Cache, der 6000 bereits dekodierte Instruktionen fasst. Der L1-Datencache wächst um 50 Prozent auf 48 KByte (12-fach assoziativ) ohne jedoch die Latenz dabei zu verschlechtern. Auch der Datenpfad vom L1-Cache zur Vektoreinheit wurde verdoppelt – der L1-Instruktionscache hat jetzt zwei 32-Bit-Read-Ports, der L1-Datencache ist mit 64 Bit angebunden und kann vier Leseoperationen und zwei Schreiboperationen befüllen. All das geschieht, wie auch die Verdopplung der Floating-Point-Register, um die Full-Speed-AVX512-Einheiten auch adäquat auslasten zu können. Wie immer werden auch die Sprungvorhersagen verbessert und die Out-of-Order-Windows vergrößert. Dadurch können mehr Instruktionen parallel in Bearbeitung sein und gehalten werden.

An der Zen-5-Mikroarchitektur hat AMD etliches neu gemacht. So kommt im Front-End zum Beispiel eine verdoppelte Fetch-/Decode-Pipeline zum Einsatz.

(Bild: AMD)

Weitere Details gibt es in einer der kommenden Ausgaben von c’t.

AVX512 mit vollem Durchsatz – theoretisch

Auch die Befehlssatzerweiterung AVX512 ist wie schon bei Zen 4 wieder mit an Board. Die Zen-5-Kerne können, anders als bei Zen 4, AVX512 theoretisch auch in einem statt in zwei Durchgängen ausführen und so für die doppelte Rechenleistung pro Takt sorgen. Allerdings bewahrte sich AMD auch die Möglichkeit, die breiten Instruktionen platz- und energiesparend in zwei 256-Bit-Häppchen nacheinander abzuarbeiten, wie es schon Zen 4 tat.

Und genau das nutzt man bei beiden Ryzen-AI-300-Chips aus, wie der "Godfather of Ryzen", AMD-Ryzen-Chefentwickler Mike Clark in einer Gesprächsrunde auf Nachfrage von c’t bestätigte. Uns hatte nämlich interessiert, wie AMD die Aufteilung zwischen den Classic- und den Compact-Cores handhaben würde, wenn entsprechende Instruktionen eintrudelten: Immerhin hätten die vier dicken Zen-5-Kerne ja selbst bei gleichem Takt genauso viel AVX512-Leistung wie die acht Kompaktversionen.

Doch wie sich herausstellte, war das kein Problem, vor welches die Ryzen AI 300 gestellt werden, denn die Classic-Cores arbeiten im Ryzen AI 300 mit der energiesparenden Option, AVX512-Operationen in zwei aufeinanderfolgenden Durchgängen zu bearbeiten. Ob die Classic-Cores aber eine andere physische Belichtungsmaske nutzen oder ob die Full-Speed-AVX512-Option nur per BIOS oder durchgeschossener Sicherung aktiviert ist, wollte AMD dann doch nicht verraten. Allerdings rutschte zwischen den Zeilen die Information durch, dass die vier großen Kerne auf eine 16-MByte-Partition des insgesamt 24 MByte großen L3-Caches zugreifen dürfen, was für die acht kompakten Kerne nur noch 8 MByte übrig ließe.

Ebenso wollte man nichts Genaues zur Platzersparnis der Zen-5-Compact-Kerne verraten.

Bei den Ryzen-9000-Desktop-CPUs soll aber die schnelle AVX512-Option gezogen werden, wie AMD-Chefin Lisa Su in ihrer Computex-Ansprache versicherte.

RDNA 3.5: Optimiert für Notebooks

Die integrierte Grafik der Ryzen AI 300 hat AMD nach eigenen Angaben aus Erfahrungen seiner Lizenzierung an Samsung an die Verwendung im energiesensitiven Notebooksektor angepasst.

Drei der wichtigsten Änderungen sind die Verdopplung der Textur-Sampler, des Integer- und Compare-Durchsatzes. Außerdem die Verbesserung des Speichersubsystems unter anderem durch Verringerung der Zugriffe durch besseres Puffern.

Die integrierte Grafik wurde für mehr Energieeffizienz umgebaut und bekam daher einen eigenen Architekturnamen: RDNA 3.5. Texture-Sampler, Integer- und Compare-Durchsatz sind verdoppelt, der Speicherzugriff verbessert.

(Bild: AMD)

Die Textursampler sind dabei effektiv Datenpfade in die Shadereinheiten, die auch für andere Berechnungen zum Einsatz kommen könnten, zum Beispiel für Raytracing-Grafikeffekte, die bei AMD Teile der Textureinheiten blockieren. Diese könnten dann möglicherweise nebenläufig arbeiten. Der verdoppelte Integer- und Compare-Durchsatz [Update: Interpolation ist korrekt, nicht Integer] in den Vektoreinheiten lässt vor allem mehr zeitlichen Freiraum für die anderen Rechenoperationen, da die beschleunigten Funktionen häufig für vorbereitende Aufgaben eingesetzt werden – Nvidia hatte eine in der Wirkung ähnliche Änderung bei seiner GeForce-RTX-2000-Reihe "Turing" umgesetzt.

Bei einer Leistungsaufnahme von 15 Watt soll der Ryzen AI 9 HX 370 dadurch im DirectX-12-Benchmark 3DMark Time Spy mit 2462 Punkten eine um circa ein Drittel höhere Performance erzielen als in einem ähnlich konfigurierten Ryzen 7 8840U.

XDNA2: KI-Einheit aufgebohrt

Die neue KI-Einheit stammt wie auch der Vorgänger aus AMDs zugekaufter FPGA-Sparte Xilinx, genauer der Versal-Produktlinie. AMD hat ihre Performance gegenüber Ryzen 8040 auf rund das Dreifache erhöht und erreicht nun einen theoretischen Durchsatz von 50 Billionen Operationen pro Sekunde (50 TOPS) bei Integer-Genauigkeit und nur minimal weniger bei Verwendung des neuerdings unterstützen Block-FP16-Formats. Damit will AMD das Inferencing auf den XDNA-Einheiten bereits in FP16-Präzision vorliegender KI-Modelle bei annähernd gleicher Genauigkeit doppelt so schnell abarbeiten. Das soll durch die Verwendung eines gemeinsamen Exponenten für Blöcke von Mantissen bei annähernd gleicher Genauigkeit KI-Modelle ohne zusätzliche, aufwendige Quantisierung möglich sein. Ein Tool für die Übersetzung in Block FP16 will man bereitstellen.

Die KI-Einheit XDNA2 basiert auf den Dataflow-Prozessoren Versal 2 aus AMDs FPGA-Sparte Xilinx. Sie kann für KI-Anwendungen partitioniert werden und die nicht gebrauchten Teile legen sich schlafen.

(Bild: AMD)

Die XDNA2-Einheit hat acht Gruppen von je vier Ausführungseinheiten, die KI-Anwendungen einzeln zugeordnet werden können. Bei vielen KI-Anwendungen wie zum Beispiel einer Simultanübersetzung eines Sprechers oder ein Video-Filter reicht es, wenn sie in Echtzeit ausgeführt wird, eine höhere Performance bringt dem Anwender nichts, sondern kostet nur mehr Strom. Daher kann die XDNA2-Einheit die genannten Ausführungseinheiten in Gruppen von jeweils fünf Stück zuzüglich einer Speichereinheit einer Anwendung zuweisen. Wenn sonst nichts zu tun ist, legen sich die restlichen, nicht genutzten Einheiten schlafen.

Zusammen mit anderen Verbesserungen soll die neue XDNA2-Einheit damit rund doppelt so energieeffizient arbeiten wie im Vor-Vorgänger Ryzen 7040.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Preisvergleiche immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.