Elitäre Bildveredler
Workstation-Grafikkarten AMD Radeon Pro W7000 und Nvidia RTX 6000 Ada im Test
Gleich zwei neue Profi-Grafikkarten von AMD sollen mit Chiplet-Technik und großem Speicher für aufwendige Konstruktionsmodelle oder 3D-Rendering auftrumpfen. Im Test zeigen Radeon Pro W7800 und W7900, wie viel Leistung AMD draufpacken konnte und ob das gegen Nvidias RTX 6000 Ada reicht.
Als die Gummistiefel noch aus Holz waren, tröpfelten Neuerungen der Workstation-Grafikkarten langsam ins Gamer-Segment. Das hat sich inzwischen umgekehrt und die Grafikchips und -techniken der Gamer-GPUs landen mit etwas Verzögerung auch im Workstation-Markt. Nur beim Grafikspeicher ist es umgekehrt. Der hat bei Nvidias RTX und AMDs Radeon Pro noch wesentlich mehr Platz als das, was auf GeForce und Radeon RX verlötet wird.
Die neueste Generation Workstation-Karten geht GPU-technisch den Schritt zur aktuellen Generation mit wesentlich mehr Rechenleistung und weiteren Funktionen etwa für ultrahochauflösende Bildschirme. Da Nvidia aber bereits beim Vorgänger 48 GByte Grafikspeicher aufgepflanzt hatte, bleibt für die RTX 6000 Ada unter diesem Aspekt nur eine Stagnation, während AMDs Radeon Pro W7900 auf dieselbe Kapazität aufholt. Und auch die W7800 wartet mit satten 32 GByte auf, was immer noch ein Drittel mehr ist als das Maximum, was man bei Gamer-Topmodellen bekommt.
Auch preislich spielen Workstation-Grafikkarten in einer anderen Liga. Die Radeon Pro W7800 geht mit ihren 2700 Euro Straßenpreis schon als Schnäppchen durch und auch die W7900 für rund 4300 Euro lässt bei vielen Workstation-Nutzern den Puls noch im Ruhemodus. Nvidias RTX 6000 Ada ist mit über 9000 Euro dagegen schon ein echter Brocken und muss im Test zeigen, ob und für wen sie diesen Aufpreis wert ist.
Drei Kandidaten
Durch den Umstieg auf die jeweils neuen Grafikchip-Architekturen – Navi31 bei AMD und Ada Lovelace bei Nvidia – gibt es im Vergleich zu den Vorgängerkarten einen gigantischen Sprung bei der theoretischen Rechenleistung. Von der 6800 zur 7800 ging es um Faktor 2,5 auf rund 45 FP32-Teraflops hoch, also 45 Billionen Rechenschritte pro Sekunde in einfach genauer Gleitkommaarithmetik. Die W7900 legt noch einmal rund 36 Prozent obendrauf. Und selbst das ist kein Vergleich zum theoretischen Durchsatz der Nvidia-Karte: 91,1 TFlops attestiert der Hersteller ihr auf dem Papier. Immerhin 86,7 TFlops, also rund 95 Prozent davon, konnten wir in unseren Durchsatzmessungen erreichen. Wie viel von dieser enormen Rechenpower in Anwendungen ankommt, zeigen wir anhand unserer Benchmarks.
Möglich wurde die hohe Rechenleistung unter anderem durch die neue 5-Nanometer-Fertigungstechnik der Chipschmiede TSMC, die es erlaubt, deutlich mehr Transistoren auf dieselbe Chipfläche zu quetschen. Damit kann man die Anzahl der Rechenwerke erhöhen oder sogenannte kritische Pfade durch Pufferschaltungen optimieren, um die Taktfrequenz zu steigern. Zu guter Letzt haben sowohl AMD als auch Nvidia die Architektur selbst optimiert. Nvidia hat innerhalb der Shader-Rechenwerke vor allem die für KI-Aufgaben zuständigen Tensor-Kerne überarbeitet. Aber auch die Raytracing-Einheiten, die zum Beispiel in vielen Denoisern für 3D-Renderer wie das kostenlose, quelloffene Blender das Bildrauschen entfernen, sind pro Stück und pro Takt deutlich schneller als in der Vorgängergeneration.
AMD hat die Navi31-Architektur ebenfalls deutlich überarbeitet und setzt hier auf Chiplet-Technik: Das Die mit den Rechenwerken nimmt den meisten Platz auf dem Träger ein und wird flankiert von bis zu sechs kleinen Chips mit Speicher- und Cachecontrollern. Außerdem liefern die Shader-Rechenwerke jetzt bis zu zwei Operationen pro Takt, sofern der Compiler im Datenstrom unabhängige Instruktionsfolgen findet. Durch Zusatzschaltungen können sie zudem Matrix-Multiplikationen schneller abarbeiten, wie sie häufig in KI-Anwendungen vorkommen. AMD nennt diese Schaltungen schlicht „AI Accelerators“, also KI-Beschleuniger. So mächtig wie Nvidias Tensor-Cores sind sie jedoch nicht, da sie immer noch im engen Verbund mit den FP32-Vektoreinheiten arbeiten und nicht komplett parallel dazu.
Viel Speicher, viel Cache
Bei Nvidia fallen zum Beispiel die schnellen Cache-Zwischenspeicher wesentlich größer aus als zuvor. In dieser Hinsicht gab es bei AMD einen Rückschritt: Der Infinity Cache genannte Last-Level-Cache schrumpfte von maximal 128 auf 96 MByte bei der W7900, die W7800 muss gar mit 64 MByte auskommen. Dafür konnte AMD aber dessen Geschwindigkeit steigern. Auch durch die Anbindung mit 384 statt 256 Datenleitungen bei der Radeon Pro W7900 wuchs die Geschwindigkeit des Speichers um 50 Prozent, bei Nvidia arbeitete schon die Vorgängergeneration mit dieser Speicherbusbreite.
Wir haben bei AMDs größerem Inifinity Cache bis zu 2,8 Terabyte pro Sekunde gemessen, Nvidias kleinerer Level-2-Cache kommt auf satte 5,5 Terabyte/s. Da die Transferraten der einzelnen Cache-Partitionen addiert gemessen werden, ist der Nvidia-Cache allein durch seine größere Stückelung im Vorteil.
Der Stromspareffekt des neuen Herstellungsprozesses trägt ebenfalls dazu bei, dass die Designs nun auch höhere Taktraten erlauben, ohne das weiterhin stillschweigend als Obergrenze geltende 300-Watt-Limit zu durchbrechen.
Im Workstation-Markt zählen aber auch andere Werte: Die höchste Rechenleistung zum Beispiel nützt nichts, wenn Datensätze wie ein komplexes Konstruktionsmodell oder die 3D-Darstellung einer MRT-Untersuchung nur teilweise in den lokalen Speicher passen. Dasselbe gilt inzwischen auch für Anwendungen bei künstlicher Intelligenz: Schon ein Bildgenerator wie Stable Diffusion kann für übliche Bildauflösungen bereits die Speicherkapazität selbst von High-End-Consumerkarten sprengen. Die wirklich anspruchsvollen, weil mit immens hohem Rechenaufwand und riesigem Speicherbedarf verbundenen Aufgaben, etwa das lokale Training eines KI-Modells, sind dabei noch gar nicht erfasst.
Außerdem beherrschen alle drei Probanden den Speicherschutz mit ECC. Er lässt sich über die Treibersoftware aktivieren und erfordert einen Neustart. Beim Gaming ist dieser Schutz vor kippenden Bits im Speicher noch unwichtig, denn wer bemerkt schon einen mit leichter Fehlfarbe berechneten Bildschirmpunkt unter Millionen, wenn das Actionspiel Dutzende Frames pro Sekunde auf den Schirm wirft oder die Aufmerksamkeit dem virtuellen Instrumentenlandesystem im tropischen Gewittersturm gilt.
Wenn Berechnungen aber nicht mehr wenige Millisekunden dauern, sondern länger brauchen, kann sich ein Fehler durch ein falsches Bit potenzieren und im schlimmsten Fall die Wiederholung der Aufgabe erfordern. Während das bei einem Echtzeit-Renderbild kaum problematisch sein dürfte, könnte es bei Strömungssimulationen an Flugzeughüllen schon kritischer sein.
Display-Engine: Vorteil Radeon
Viele Einsatzgebiete im Kreativbereich benötigen multiple oder sehr hochauflösende Bildschirme. 4K ist beinahe schon Standard und höhere Auflösungen sind auch mit hoher Farbtreue und ergonomischen Bildwiederholraten wünschenswert.
Dabei muss es sich gar nicht gleich um 12K oder 8K handeln, mit deren Unterstützung AMD die Radeon Pro anpreist. Bildschirme in 5K-Auflösung und ohne die optisch verlustlose „Display Stream Compression“ (DSC) sowie in Hochkontrastdarstellung (12-Bit-HDR) sind hingegen ein realer Vorteil für Einsätze etwa bei professioneller Videobearbeitung.
Bei AMD gibt es Fort- und kleine Rückschritte zugleich. Im Vergleich zur Vorgängerin hat die Radeon Pro W7000 nur noch vier Displayausgänge, keine sechs mehr. Die drei Full-Size-DisplayPorts und der „enhanced Mini-DisplayPort“ sind dafür allerdings bereits nach jüngsten DisplayPort-Spezifikation 2.1 ausgeführt. Sowohl die Pro W6800 als auch die aktuellen Nvidia-Karten müssen mit DisplayPort 1.4c auskommen.
Die höhere Datenrate des neueren Standards genügt etwa, um vier 4K-Bildschirme mit 120 Hertz auch ohne DSC zu betreiben. Alternativ lässt sich statt eines 8K60-Displays eines mit 120 Hertz anschließen und selbst ein noch fiktiver 12K60-Monitor betreiben, wo bei DP1.4 mit 8K60 Schluss ist.
Beim Einsatz im Videobereich haben alle drei Karten Einheiten, um Videoströme sowohl zu dekodieren als auch, um neue zu erzeugen (Encoder). Beide Radeon-Karten haben als Neuerung zum Vorgänger einen Encoder für den AV1-Codec sowie doppelt ausgelegte Decoder für ältere Codecs wie H.265. Nvidia spendiert der RTX 6000 Ada einen zweifachen Decoder und einen dreifachen Encoder, die im Wesentlichen dieselben Formate bedienen wie die der Radeons. Anders als die Gamer-Chips aus eigenem Hause beschränkt der Hersteller die RTX 6000 Ada nicht auf fünf gleichzeitig erlaubte Encoding-Sessions, was bei Multi-User-Nutzung ein Vorzug sein kann.
Kühlung bei 260 bis 300 Watt
Anders als Gaming-Grafikkarten ist bei Workstations noch keine Gigantitis mit vier Slots Breite oder eine Kartenlänge von bis zu 35 Zentimetern ausgebrochen. AMDs Radeon Pro W7800 und Nvidias RTX 6000 Ada begnügen sich mit dem Dual-Slot-Standard bei 28 respektive 27 Zentimetern Länge. Nur die Pro W7900 braucht ein wenig mehr Luft zum Atmen: Sie hat eine drei Slots breite Blende, aber die Kühlerverschalung nutzt diese Breite nicht ganz aus. Damit bleibt automatisch etwas mehr Abstand zu weiteren Karten, was die Belüftung bei Multi-GPU-Systemen verbessert. Diese Systeme sind dadurch aber zugleich auf üblicherweise zwei (2 × 3 Slots) statt vier Karten (4 × 2 Slots) beschränkt.
Die Lüfter arbeiten allesamt nach dem Direct-Heat-Exhaust-Prinzip, pusten die angesaugte Luft also über die Kühllamellen direkt aus dem Gehäuse hinaus. Daher vertrauen auch beide Hersteller auf nur einen Lüfter, anstelle von bis zu dreien bei High-End-Gamingkarten. Im Leerlauf ist auch ohne Stillstandfunktion nichts von ihnen zu hören, doch unter Last müssen sie alle deutlich aufdrehen und sind dann auch lauter als die leisesten Gaming-Pendants. Wenig überraschend bleibt die Radeon Pro W7800 mit 1,5 sone knapp am leisesten, da ihr Lüfter mit 260 Watt maximaler Abwärme rund 40 Watt weniger loswerden muss als die von W7900 und RTX 6000 Ada. Echte Leisetreter sind die Karten somit nicht, im üblichen Bürolärm dürfte ihr Geräusch in der Regel aber untergehen.
Eine Besonderheit haben wir bei der Regelung der Nvidia-Karte entdeckt: Ihr Lüfter könnte zwar deutlich mehr, wurde zugunsten des Geräuschpegels unter Volllast jedoch auf maximal 2050 Umdrehungen pro Minute gedeckelt. Der Hotspot des Grafikchips erreichte dabei die Grenze von 90 Grad, sodass der Takt immer weiter sank und sich schließlich bei nur noch 840 MHz im Stresstest Furmark stabilisierte. In anderen Anwendungen wie den SPEC-Benchmarks oder beim 3D-Rendering mit Blender blieb die Taktrate jedoch oberhalb von 2 GHz.
Energie: Effizient?
Während ihre Spieler-Äquivalente Radeon RX 7900 XTX und GeForce RTX 4090 trotz nur halb so viel Speicher 355 respektive 450 Watt verheizen, bleibt es bei den Profi-Grafikkarten bei der schon länger üblichen 300-Watt-Grenze. Die lässt sich problemlos über zwei Achtpol-Stecker vom Netzteil abdecken, was die beiden Radeon-Karten auch tun. Nvidia geht den Sonderweg des 12VHPWR-Connectors aus der ATX-3.0-Spezifikation, legt aber einen Adapter auf 2 × Achtpol bei. Der Nvidia-Connector entsprach bei unserem Testmuster noch dem ursprünglichen Standard. Der führte in der Vergangenheit speziell mit Verwendung von Adaptern oder bei engen Biegeradien nahe dem Anschluss zu verschmorten Steckern. Daher überarbeitet ihn die PCI-SIG gerade und sieht unter anderem weiter zurückgezogene Sense-Anschlüsse vor (siehe Foto auf S. 106). Sitzt der 12VHWPR-Stecker aber korrekt, dürfte das im 300-Watt-Bereich, in dem sich die RTX 6000 Ada bewegt, kein Problem darstellen.
Im Leerlauf mit einem Display schluckten die Karten angesichts ihres dicken Speicherpolsters noch erträglich viel Strom auf dem Prüfstand. Am besten schnitt die Radeon Pro W7800 mit 11 Watt im Leerlauf an einem 4K60-Bilschirm ab, am schlechtesten Nvidias RTX 6000 Ada mit 21 Watt. Das Bild ändert sich, wenn mehrere Monitore oder solche mit hoher Refreshrate von 120 Hertz und mehr zum Einsatz kommen. Mit einem 4K120-Display war die Nvidia-Karte mit 25 Watt am sparsamsten, gefolgt von der Radeon Pro W7800 mit satten 47 Watt. Die W7900 holte mit hohen 72 Watt den Negativrekord.
Unter Last reizte die Nvidia-Karte ihre erlaubten 300 Watt nicht nur voll aus, sondern überschritt sie leicht um 5 Watt. Beiden Radeon-Pro-Karten hat AMD offenbar noch ein Pölsterchen eingeräumt, sodass sie im Test um jeweils rund 20 Watt unterhalb ihrer angegebenen „Total Board Power“ blieben. Dennoch sollte man bei allen Karten nicht nur die nominale Leistungsaufnahme für die Netzteilwahl mit einbeziehen, denn Spitzenausschläge im Millisekundenbereich reichten deutlich höher, sodass man lieber mit 400 bis 500 Watt pro Karte kalkulieren sollte.
Leistungsschau
Unsere Benchmarks lassen sich recht einfach zusammenfassen: Weiterhin kommt die Nummer Eins unter den Workstation-Karten von Nvidia. Die teure RTX 6000 Ada schwächelte in der Benchmark-Suite SPEC Viewperf2020 v3.1 nur im Subtest der Tuvok Library (medical-03) bei der Visualisierung eines MRT-Scans und musste sich der Radeon Pro W7900 um knapp 15 Prozent geschlagen geben. In den anderen Tests reichte der Nvidia-Vorsprung von 10 (in PTC Creo, Autodesk Maya und Dassault Solidworks) über 20 bis 30 Prozent in 3DSmax, CATIA V5 und OpendTect bis hin zu 100 Prozent in der Konstruktionssoftware Siemens PLM NX.
Auch im Bereich „GPU Compute“ und den meisten Grafikwertungen der SPEC Workstation 3.1 ließ die Nvidia-Karte den Radeons keine Chance, bei den Life Sciences schlug jedoch mit „medical-02“ ein enger Verwandter des ViewPerf-Tests zu und die nur halb so teure Radeon zog mit 25 Prozent davon.
Die noch einmal deutlich günstigere Radeon Pro W7800 arbeitete auf einem anderen Niveau und hält nur die Vorgängerkarte Pro W6800 sowie Nvidias RTX A5000 aus der Ampere-Generation teils knapp, meist aber recht deutlich auf Abstand.
Beim 3D-Rendering in Blender 3.6 LTS kommen bei allen Karten optional auch die Raytracing-Einheiten zum Einsatz. Hier ist gegen Nvidia kein Kraut gewachsen. Selbst gegen die Vorgängergeneration kommt nur AMDs Spitzenmodell an, solange konventionelle Rendering-Funktionen genutzt werden. Mit RT ist schon die RTX A5000 aus der vorigen Generation schneller als die W7900. Fairerweise muss gesagt werden, dass Blender 3.6 LTS die erste offizielle Version mit AMD-Raytracing-Support ist und hier wahrscheinlich noch Optimierungspotenzial besteht.
Fazit
AMD hat mit den neuen Radeon-Pro-Karten zwei interessante Optionen parat. Bei der Performance kommt AMDs Navi31 bei gleicher 300-Watt-Vorgabe absolut gesehen aber nicht gegen Nvidias Ada-Architektur an und kann nur im Ausnahmefall einen kleinen Achtungserfolg feiern. Auch bei KI-Anwendungen liegt AMD noch hinten: Der W7000-Support im hauseigenen Rocm-Paket ist noch frisch und nur unter Linux existent. Viele KI-Anwendungen laufen speziell unter Windows out-of-the-Box einfacher und besser auf den Nvidia-Karten.
Wer jedoch auf besonders schnelle oder hochauflösende Displays aus ist, dem bieten AMDs Radeon Pro W7000 den derzeitigen Stand der Technik.
AMDs größter Trumpf ist derzeit aber der Preis: Selbst die Radeon Pro W7900 kostet nur halb so viel wie Nvidias Topmodell RTX 6000 Ada und die W7800 ist auf dem Preisniveau der langsameren und älteren Pro W6800 und RTX A5000. (csp@ct.de)
| Workstation-Grafikkarten – technische Daten und Messwerte | |||
| Modell | AMD Radeon Pro W7800 | AMD Radeon Pro W7900 | Nvidia/PNY RTX 6000 Ada |
| Architektur, Grafikchip (Fertigungsprozess / Chipfläche / Transistoren) | RDNA3, Navi 31 FGL (5 + 6 nm / 306 + 220 mm2 / 57,7 Mrd.) | RDNA3, Navi 31 FGL (5 + 6 nm / 306 + 220 mm2 / 57,7 Mrd.) | Ada Lovelace, AD102 (TSMC 5 nm / 609 mm2 / 76,3 Mrd.) |
| APIs: Direct3D / OpenGL / OpenCL / Vulkan / Sonstige | DX12 Ultimate (FL 12_1) / 4.6 / 2.1 / 1.2 / ROCm | DX12 Ultimate (FL 12_1) / 4.6 / 2.1 / 1.2 / ROCm | DX12 Ultimate (FL 12_1) / 4.6 / 1.2 / 1.2 /CUDA 11.4 |
| Compute Units (Shader-ALUs / KI-Einheiten / RT-Einheiten / Textureinheiten / Rasterendstufen) | 70 (4480 / 70 / 160 / 280 / 80) | 96 (6144 / 192 / 96 / 240 / 96) | 142 (18176 / 568 / 142 / 568 / 128) |
| FP32-Rechenleistung 1 | 45,2 TFlops | 61,3 TFlops | 91,1 TFlops |
| für FP32-Durchsatz rechnerisch nötiger Takt | 2525 MHz | 2494 MHz | 2505 MHz |
| Grafikspeicher: Menge, Typ (Übertragungsrate) / ECC | 32 GByte, GDDR6 (576 GByte/s) / ✓ | 48 GByte, GDDR6 (864 GByte/s) / ✓ | 48 GByte, GDDR6 (960 GByte/s) / ✓ |
| Display-Anschlüsse | 3 × DP 2.1, 1 × mDP 2.1 | 3 × DP 2.1, 1 × mDP 2.1 | 4 × DP 1.4a mit DSC |
| gleichzeitige Displays (max. Refresh) | 4 × 4K (120 Hz mit DSC) / 4 × 5K (60 Hz) / 2 × 8K (60 Hz) / 1 × 12K (120 Hz mit DSC) | 4 × 4K (120 Hz mit DSC) / 6 × 5K (60 Hz) / 2 × 8K (60 Hz) / 1 × 12K (120 Hz mit DSC) | 4 × 4K (120 Hz mit DSC) / 4 × 5K (60 Hz mit DSC) / 2 × 8K (60 Hz mit DSC) |
| TDP / Stromanschlüsse | 260 Watt / 2 × 8-Pol | 295 Watt / 2 × 8-Pol | 300 Watt / 1 × 16-Pol 12VHPWR |
| Anbindung Host-System (PCIe-Transferrate pro Richtung) | PCIe 4.0 x16 (32 GByte/s) | PCIe 4.0 x16 (32 GByte/s) | PCIe 4.0 x16 (32 GByte/s) |
| Kühlung | Dual-Slot, aktiv (Radiallüfter) | Triple-Slot, aktiv (Radiallüfter) | Dual-Slot, aktiv (Radiallüfter) |
| Länge × Breite × Höhe / Gewicht | 28,0 cm × 11,2 mm × 4,0 cm / 1216 g | 28,0 cm × 11,2 cm × 4,0 cm / 1354 g | 27,0 cm × 11,2 cm × 4,0 cm / 1194 g |
| Sonstiges | 64 MByte Infinity Cache für schnellere Speicherzugriffe (ca. 1,9 TByte/s) | 96 MByte Infinity Cache für schnellere Speicherzugriffe (ca. 2,9 TByte/s) | 96 MByte L2-Cache für schnellere Speicherzugriffe (ca. 5,5 TByte/s) |
| Zusätzliche Messungen | |||
| reale Taktrate kurzzeitiges Maximum | 2808 MHz | 2869 MHz | 2715 MHz |
| reale Taktrate Blender Classroom (Teillast) / Furmark 1080p (Volllast) | 2781 MHz / 1342 MHz (251 fps) | 2627 MHz / 1297 MHz (326 fps) | 2577 MHz / 840 MHz (436 fps) |
| 3DMark Firestrike Extreme (DX11) / Time Spy (DX12) / Port Royal (DX12 + RT) / Speedway (DX12 + RT) | 24701 / 18936 / 10614 / 3851 Punkte | 32518 / 22983 / 12336 / 5158 Punkte | 38218 / 27864 / 20595 / 8010 Punkte |
| Technische Prüfungen | |||
| Leistungsaufnahme 2D2 / Multimonitor3 | 11 (47) / 14 (39) W | 15 (72)/ 18 (54) W | 21 (24) / 37 (38) W |
| Leistungsaufnahme 3D / Volllast (Peak4) | 238 / 242 (380) W | 278 / 282 (460) W | 298 / 306 (392) W |
| Lautheit Leerlauf / Last / Max | 0,1 / 1,5 / 1,6 sone | < 0,1 / 1,8 / 1,9 sone | < 0,1 / 1,5 / 2,4 sone |
| Preis Straße (US-UVP) | circa 2700 € (2499 US-$) | circa 4300 € (3999 US-$) | circa 9400 € (6799 US-$) |
| 1 Herstellerangabe 2 bei 60 (120) Hertz 3 mit 2 × 4K60 (3 × 1080p60 + 1 × 4K60) 4 kurzzeitiger Spitzenwert für einige Millisekunden ✓ vorhanden – nicht vorhanden k. A. keine Angabe | |||