KI-Benchmark MLPerf: Erste AMD-Beschleuniger mit Minimalauftritt

Er hat's getan: Die Firma tinycorp des Ex-Hackers George Hotz hat die ersten AMD-Chips im MLPerf Training v4.0 platziert – aber mit nur einem Einzelwert.

In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen
AMDs Chip der Instinct MI300X

AMDs Instinct-MI300X-Beschleuniger, der sich vor allem beim KI-Training gut machen soll.

(Bild: c't / csp)

Lesezeit: 4 Min.

Das Benchmark-Konsortium MLCommons, dem auch etliche Industriegrößen wie Amazon, AMD, Google, Intel oder Nvidia angehören, veröffentlicht die vierte Runde der MLPerf Training-Benchmarks. Dabei geht es um KI-Training im großen Stil, einige Einreichungen laufen mit Tausenden von Beschleunigern zugleich.

In Runde 4 neu hinzugekommen sind das Feintuning von Large Language Models (LLMs) am Beispiel von Llama2 LoRA mit 70 Milliarden Parametern und Graph Neural Networks (GNN) mit R-GAT. Für Llama 2 reichten 13 Mitglieder 31 Ergebnisse ein, für GNN gab es elf Ergebnisse von sechs Teilnehmern.

Erstmals war mit den 24 Ergebnissen der Firma Sustainable Metal Cloud auch die Power-Messung vertreten, die die Leistungsaufnahme für Rechenzentren vor Ort wie auch in der Cloud abbilden soll. SMC will mit seinen Ergebnissen speziell die hauseigene Immersionskühlung hervorheben, die helfen soll, Energie zu sparen.

Alle Ergebnisse lassen sich über die MLCommons-Website einsehen.

Bei den großen Installationen zeigt sich schon beinahe das gewohnte Bild: Nvidia-Beschleuniger vom Typ H100 liegen in der Regel vorn, auch wenn erste Einträge mit H200 in besonders speicherintensiven Tests noch einmal zulegen können. Apropos zulegen: Das taten auch die Werte für Hopper generell. Einige Nvidia-Einreichungen sind durch neue Software und Optimierungen circa 30 Prozent schneller als zuvor.

Wie schon zuvor konzentriert sich ein großer Teil auf Nvidias A100- und H100-Chips. Außer diesen sind auch noch die H200-Variante mit mehr Speicher sowie Googles TPUv5 mit am Start sowie zwei Systeme mit Consumer-Hardware, namentlich Nvidias GeForce RTX 4090 (tinybox green) und als erster AMD-Chip die Radeon RX 7900 XTX als tinybox red von der Firma tinycorp.

Die Ergebnisse sind jedoch durchaus ausbaufähig, denn zum einen reicht tinycorp nur das Ergebnis in ResNet50 v1.5 je Box ein und zum anderen sind die erzielten Laufzeiten gegenüber echten Rechenzentrumsbeschleunigern eher lang.

Die tinybox red mit sechs Radeon-Grafikkarten benötigte für den Benchmark 167,15 Minuten, die tinybox green mit den GeForce-Karten 122,08 Minuten. Bereits vier Nvidia L40S, die auf der gleichen AD102-GPU aufbauen wie die RTX 4090, brauchen in der Einreichung von Dell nur rund 86 Minuten. Helfen dürfte hierbei ihr mit 48 GByte doppelt so großer Speicher im Vergleich zu den GeForce-Karten. Gegen vier Nvidia H100 mit 44,6 Minuten sehen aber auch die alt aus.

Es bleibt also noch viel Arbeit, bis sich der Preisvorteil, den sich Hotz für seine tinyboxes auf die Fahnen geschrieben hat, auch in der Wirtschaft lohnt, wo Zeit Geld ist. Immerhin hat er sein Versprechen wahr gemacht, noch 2024 die ersten AMD-Beschleuniger im MLPerf unterzubringen. Die tinybox green (Nvidia) soll 25.000 US-Dollar kosten und wird auf der Website mit "Driver Quality: great" charakterisiert, die tinybox red (AMD) gibt es schon für 15.000 US-Dollar, Driver Quality "mediocre". Derzeit beträgt die Lieferzeit bei beiden zwei bis fünf Monate.

Hinter tinycorp steht außer ein paar Millionen Risikokapital der als iPhone-Hacker geohot bekannt gewordene George Hotz. Der hat sich in der Vergangenheit bereits öfter lautstark auf Social-Media-Kanälen über den Zustand von AMDs ROCm-Framework beschwert, das für die Nutzung von AMD-Hardware nicht nur im KI-Bereich essenziell ist. Zuletzt war er nach einem Gespräch mit AMD-Chefin Dr. Lisa Su aber wie diese zuversichtlich, dass sich die Zustände bessern.

Die MLPerf-Veröffentlichungen laufen wie Wettbewerbe in zwei Runden pro Jahr. Dabei können die konkurrierenden Hersteller aus unterschiedlichen Benchmarks für das Training von KI-Modellen oder deren Anwendung (Inferencing) wählen oder auch mehrere einreichen.

(csp)