MLPerf Inference 4.1: Nvidia B200, AMD MI300X und Granite Rapids geben ihr Debüt

Nvidias Blackwell lässt die Konkurrenz hinter sich, AMDs MI300X legt ein gutes Debüt hin und zaghaft zeigen sich auch Intels Xeon 6980P und AMDs Epyc Turin.

In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen

(Bild: c't / csp)

Lesezeit: 7 Min.
Inhaltsverzeichnis

Das Benchmark-Konsortium MLCommons veröffentlicht die Ergebnisse der MLPerf Inference-Benchmarksuite. Anders als beim KI-Training im großen Stil, bei dem einige Einreichungen mit Tausenden von Beschleunigern zugleich laufen, geht es beim Inferencing um einzelne Maschinen mit vergleichsweise wenigen Beschleunigern, üblicherweise bis zu acht. Sie treten in verschiedenen Tests an, vom ziemlich angegrauten resnet-50 bis zu größeren KI-Modellen wie Stable Diffusion XL über Llama2-70b und dem neuen Mixtral 8x7b.

In Runde 4.1 der Inference-Wertung treten erstmals AMDs Instinct-MI300X-Beschleuniger, Nvidias Blackwell B200 sowie Intels Xeon 6980P Granite Rapids und – etwas außer Konkurrenz, da nicht kauf-, sondern nur mietbar – Googles TPU v6 an. Allerdings in durchaus unterschiedlichen Kategorien. Für die TPU v6e etwa lieferte Google nur Werte in Stable Diffusion XL, wo sie zwar rund 3x so schnell wie der Vorgänger TPU v5 war, aber nur mit Nvidias H100-PCIe-80GB, nicht aber der H100 in der SXM-Version mithalten konnte.

Lange wurde die Premiere von AMDs MI300X-Beschleunigern in der MLPer erwartet und nun sind gleich vier Ergebnisse da – eingereicht von AMD (3x) und Dell (1x). Allerdings traten AMD und Dell nur in den Llama2-70b-Kategorien an: Bei den älteren KI-Modellen sah man wohl keine Vorteile für die Beschleuniger, beim neuen Mixtral 8X7b waren die Optimierungen wohl noch nicht abgeschlossen. Man freue sich jedenfalls, nun endlich dabei zu sein, und halte insbesondere die neueren generativen KI-Modelle Llama2-70b, Stable Diffusion XL und Mixtral-7X8B für repräsentativ, was die Belange der Industrie angehe, sagte AMDs Director des GPU-Produktmarketings Mahesh Balasubramanian vorab.

Eines der AMD-Systeme nutzte bereits die kommenden Epyc-Prozessoren Turin (Zen 5) als Unterbau für die acht MI300X-Beschleuniger und war auch prompt die schnellste der vier Einreichungen. Alle MI300X haben je 192 GByte HBM3-Speicher und waren mit den regulären 750 Watt konfiguriert.

Die Ergebnisse der MI300X haben im Vergleich zu Nvidias Grace Hopper GH200 (144 GB) noch Luft nach oben. Der MI300X schaffte in den Server-Wertungen knapp zwei Drittel und in der Offline-Wertung drei Viertel der Nvidia-Leistung. Der Vergleich gegen den einzigen konventionellen H200 ist etwas unfair, da dessen SXM-Modul mit einer Spezialkühlung versehen war und 1000 Watt verbraten durfte. Gegen diese Einreichung mit der Nummer 4.1-0045 lag AMD 40 beziehungsweise 32 Prozent hinten.

AMDs Instinct-MI300X-Beschleuniger, der sich vor allem beim KI-Training gut machen soll.

(Bild: c't / Carsten Spille)

In den Systemen mit acht Beschleunigern sah es für AMDs MI300X ähnlich aus: Zwischen 72 und 75 Prozent der Nvidia-H200-SXM (141 GByte) waren drin, gegen die 1-kW-H200 waren es 69 und 72 Prozent für Offline- und Server-Wertung. Gegenüber Nvidias H100-Konfigurationen mit 80 GByte Speicher, die derzeit noch das Gros der genutzten Hopper-Beschleuniger ausmachen dürften, liegt die MI300X in der Offline-Wertung gleichauf, in der Server-Rangliste 5 Prozent zurück. Geht man von den Fortschritten aus, die unter anderem Nvidia sukzessive in den MLPerf-Ergebnissen gemacht hat, ist das sicherlich aufholbar.

Spannend: AMD reichte auch eine Konfiguration mit nur einer MI300X ein, sodass eine Beurteilung der Skalierbarkeit möglich ist. Durch den größeren Gesamtspeicher liegt diese bei den Server-Wertungen mit ihren Latenzvorgaben mit Faktor 8,34 sogar etwas über der Idealskalierung der reinen Rechenleistung, bei den Offline-Wertungen mit 7,68 nur knapp darunter.

Nvidias auf der GTC 2024 vorgestellter Blackwell-Beschleuniger B200 legt in MLPerf Inference 4.1 ebenfalls seinen ersten öffentlichen Auftritt im Llama2-70B-Benchmark hin, andere Resultate reichte Nvidia bei dem Preview-System (4.1-0074) nicht ein. Gegenüber der ebenfalls mit 1000 Watt betriebenen H200-SXM war Blackwell 2,56-mal so schnell in der Server-Wertung und 2,51-mal so schnell im Offline-Modus. Gegenüber dem GH200-Superchip stiegen die Faktoren auf 2,77 respektive 2,76.

Dabei nutzt Nvidia erstmals öffentlich das Quasar-Quantization-System, welches durch die Blackwell-Transformer-Engine einzelne Rechenschritte auf FP4-Genauigkeit herunterbrechen kann und so nicht nur Rechenzeit, sondern auch Speicherplatz einspart. Sowohl Nvidia als auch MLCommons betonten, dass die Vorgaben für die Ergebnisgenauigkeit dabei eingehalten wurden.

Nvidia rechnet sich das ganze noch etwas schöner und bricht die B200-Leistung auf eine so nicht in der MLPerf angegebene Single-GPU-Performance gegenüber der älteren H100 mit 80 GByte (Einreichung 4.1.-0043) herunter. Damit erreicht man werbewirksame Faktoren von 4 beziehungsweise 3,7 für Server und Offline.

In der Preview-Eingabe 4.1-0073 von Intel kommt der noch nicht offiziell gestartete Xeon 6980P aus der Granite-Rapids-Serie zum Einsatz. Die Xeon 6980P laufen auf einem Server der Avenue-City-Plattform und werden nicht von Beschleunigern unterstützt, sind also allein für die Ergebnisse verantwortlich.

Im Vergleich zu den Dual-Xeon-Platinum-8592+, den Topmodellen der aktuellen Generation, sind sie in der Server-Wertung von retinanet etwas mehr also doppelt so schnell, in der Offline-Wertung von retinanet und GPTj-99 beinahe zweimal so schnell. Aber auch in den restlichen angetretenen Tests schlagen sie die Vorgängergeneration, die außer von Intel auch von SuperMicro und Quanta eingereicht wurden, um mindestens 70 Prozent.

Ein 1:1-Vergleich zu AMDs Next-Gen-Epyc-Prozessoren steht allerdings noch aus: Die Turin-CPUs sind zwar im MLPerf Inference 4.1 vertreten, allerdings nur als Triebwerke für MI300X-Beschleuniger.

Die MLPerf-Veröffentlichungen laufen wie Wettbewerbe in zwei Runden pro Jahr: Training und Inferencing. Dabei können konkurrierende Hersteller aus unterschiedlichen Benchmarks für das Training oder Inferencing von KI-Modellen wählen, aber auch Ergebnisse für mehrere Benchmarks oder alle einreichen. Sämtliche Ergebnisse sind unter mlcommons.org einsehbar.

Alle Ergebnisse unterliegen ähnlich wie bei wissenschaftlichen Veröffentlichungen einem Peer-Review-Prozess und stehen in diesem Rahmen den Mitgliedern von MLCommons vorab zur Validierung zur Verfügung. Die Chance, mit ermogelten oder geschönten Fantasiewerten durchzukommen, ist also gering. Bei den Ergebnissen wird zwischen "Offline" und "Server" unterteilt. Offline-Ergebnisse sind in der Regel etwas höher, Server-Ergebnisse müssen dafür aber Latenzvorgaben erfüllen, also innerhalb einer vorgegebenen Zeit die ersten Ergebnisse an den User zurückliefern. Dadurch fallen einige Optimierungsmöglichkeiten weg, die bei Offline-Ergebnissen für mehr Durchsatz sorgen können.

Es gibt verschiedene Kategorien wie Data Center und Edge, beide in den Versionen "closed" und "open". Die offene Kategorie erlaubt Optimierungen und angepasste KI-Modelle. Die Ergebnisse müssen in der closed-Kategorie eine von MLCommons gesetzte Mindestanforderung an die Genauigkeit erfüllen. In der offenen Kategorie sind die Regeln laxer, dort müssen aber sowohl die verwendeten Modellvarianten als auch die erreichte Genauigkeit angegeben werden.

Nicht nur die Geschwindigkeit, auch die erwarteten Ergebnisse müssen im MLPerf Inference stimmen.

(Bild: MLCommons)

Außerdem ist die Hardware in "available" und "preview" eingeteilt. Available-Systeme müssen zur Veröffentlichung des Benchmarks im Markt sein, solche mit Preview-Etikett müssen es bis zur nächsten Runde von MLPerf in den Handel schaffen.

(csp)