GH200 im Test: Was macht man mit so viel Leistung?

Leistung wie im OpenAI-Rechenzentrum: Eine deutsche Firma verkauft Rechner mit Nvidias GH200 "Superchip" als Workstation. Was kann der 32.000-Euro-Computer?

40

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

YouTube-Video immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

25.10.2024, 18:06 Uhr

Lesezeit: 14 Min.

c't Magazin

Von

Jan-Keno Janssen

GH200 im Test: Was macht man mit so viel Leistung?

Normalerweise werkeln Nvidias GH200-Modelle in Rechenzentren, c't 3003 hat eine umgebaute Variante für den Schreibtisch getestet. Die Workstation kostet 32.000 Euro und bietet 96 GByte schnellen HBM3-Speicher und 480 GByte LPDDR5X-RAM. Was man damit machen kann, zeigt unser Video.

Transkript des Videos

(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder.)

Guckt mal hier, das ist mit Abstand der ungewöhnlichste Rechner, an dem ich jemals gearbeitet habe. Oder auf jeden Fall mindestens Top 5. Und ich weiß gar nicht, wo ich anfangen soll. Damit, dass da eine Nvidia-CPU drin ist, inklusive Nvidia-BIOS-Einschaltbild, dass die Grafikeinheit 96 GB RAM hat, dass das Ding 480 GByte Arbeitsspeicher hat, also insgesamt 576 GByte schnellen Speicher. Also klar, das ist Technik, die normalerweise in irgendwelchen Serverschränken in Rechenzentren steht. Aber ich habe sowas hier jetzt als Desktop-Rechner im formschön güldenen Gehäuse. Kostet schlappe 32.000 Euro. Wie ich da drangekommen bin, was man damit machen kann und vor allem, warum man damit auch vieles nicht machen kann, seht ihr in diesem Video. Bleibt dran!

Liebe Hackerinnen, liebe Internetsurfer, herzlich willkommen hier bei…

Ja, ich habe ja als Supercomputer-Fachmann schon Erfahrung mit dem Testen von tollen Rechnern. Neulich war ja ein 40.000-Euro-Rechner von Dell dran. Ja, da habe ich Doom drauf installiert und das fand Dell so semi-lustig. Also, ich fand es auf jeden Fall lustig. Na ja, jedenfalls hat mir daraufhin der Besitzer des kleinen Webshops GPTShop.ai aus Unterfranken geschrieben, ob ich nicht mal einen viel aufregenderen Rechner testen will. Ja, und jetzt steht er hier. Und ob der wirklich aufregend ist, das versuche ich in diesem Video herauszufinden.

Alleine, dass der hier so außerhalb eines Server-Racks in meinem Büro steht, ist schon sehr ungewöhnlich. Die Hardware ist nämlich nie für den Desktop-Betrieb vorgesehen gewesen, sondern GPTShop baut die, ja, einigermaßen hemdsärmelig, halt um für den Desktop-Betrieb. Ja, genau, Server-Hardware ist das, und zwar spezifisch Hardware für GPU-Computing. Also Rechner, in denen vor allem Grafikkerne rechnen, aber nicht zwingend, um Grafiken zu berechnen, sondern meistens ganz andere Sachen, zum Beispiel große Sprachmodelle wie GPT-4, also das, was in ChatGPT drinsteckt. Konkret wird ChatGPT von solchen Dingern angetrieben.

Die Grafikeinheit ist die Nvidia H100. Wenn man jetzt nur die Rechenkerne vergleicht, könnte man auf die Idee kommen, dass man da sowas Ähnliches wie eine RTX 4090 am Start hat. Hier mal so eine Tabelle. Es gibt aber auch riesige Unterschiede. Wir können zum Beispiel bei der H100 nicht mehr alle Rechenwerke Grafik berechnen lassen, weil eben der Fokus auf Computing und KI liegt. Ziemlich riesig ist auch der Unterschied beim Speicher. Die H100 hat hier in diesem Fall heftige 96 GByte Speicher, die RTX 4090 nur 24 GByte. Vor allem ist der Speicher aber immens schnell. Das ist HBM3, also High-Bandwidth-Memory in der dritten Generation, und der kann 3,34 TByte pro Sekunde wegschaufeln. Eine 4090 schafft 1 TByte pro Sekunde.

Diese H100-Grafikeinheit ist zumindest artverwandt mit normalen Consumer-Grafikkarten, also grob kompatibel. Der Rest des Rechners ist aber wirklich nochmal ganz anders als konventionelle x86-Rechner. Da kommt als CPU eine 72-kernige Nvidia Grace-CPU mit ARM-Architektur zum Einsatz. Die wurde schon 2021 vorgestellt und seitdem hat Nvidia die nicht mehr verändert. Ganz interessant am Rande: Konkret sind da ARM-Neoverse-V2-Kerne drin, die auch in Amazon- und Google-Rechenzentren verwendet werden. Bei Amazon heißen die Graviton und bei Google Axion. Interessant ist auf jeden Fall, dass laut Amazon rund die Hälfte der Amazon-Rechenzentren schon ARM-Architektur benutzt. Also wusste ich nicht, bevor ich dieses Video recherchiert hatte. Ich dachte, das wäre noch alles x86. Aber das ist auch spezifisch für Amazon; bei den anderen Anbietern ist der Anteil noch nicht so groß.

Zurück zu meinem Rechner hier: Was wirklich ungewöhnlich ist, ist die Kombination aus Nvidia-CPU und Nvidia-GPU, die dann auch noch mit einer extrem schnellen Schnittstelle verbunden sind, nämlich NVLink-C2C. Da gehen 900 GByte pro Sekunde durch. Diese Kombination aus Grace-CPU und Hopper H100-GPU heißt dann Grace Hopper Superchip, GH200. Grace Hopper ist übrigens ein Menschennamen – eine Computerpionierin, die kam Ende der 1940er Jahre überhaupt erst auf die Idee, Computerprogramme in einer einigermaßen verständlichen Sprache zu schreiben, statt nur mit Nullen und Einsen. Von ihr kommt auch das von mir sehr geschätzte Zitat: „Es ist einfacher, um Vergebung zu bitten, als eine Genehmigung zu bekommen.“ Das verstehen vermutlich alle, die schon einmal in einer größeren Organisation gearbeitet haben.

Ich schweife schon wieder ab. Also hier: GH200-Serverrechner, die in Unterfranken ziemlich DIY-mäßig zu Desktop-PCs umgebaut werden. Inklusive kurioser Hardware-Details. Zum Beispiel diese ganzen Lüfter-Potis hier. Also, wenn man andere Leute aus dem eigenen Büro vergraulen will, einfach mal nach rechts drehen. Aber man kann die Kiste auch erträglich leise einstellen. Es gibt übrigens zwei redundante Netzteile mit jeweils 2400 Watt. Maximal habe ich eine Leistungsaufnahme von 832 Watt gemessen. Bei ruhendem Ubuntu-Desktop waren es 255 Watt. Es gibt nur einen nutzbaren USB-Port, dafür zwei 10-Gigabit-Ethernet-Ports.

Aber was kann man denn damit nun machen?

Ja, und jetzt wird es richtig interessant. Erstmal ist das nämlich alles wirklich unproblematisch. Man kann zum Beispiel einfach ein Linux in ARM-Geschmacksrichtung darauf installieren, zum Beispiel Ubuntu Server, wie wir hier. Und das funktioniert auch alles wie auf normalen Desktop-PCs. Also im BIOS dann zum Beispiel vom USB-Datenträger booten. Alles easy. Aber wenn Ubuntu dann läuft, wird es ein bisschen komplizierter. Klar, man kann vieles ganz normal über die Paketquellen installieren, auch wenn es noch nicht alle Software als ARM-Binary gibt. Aber das meiste Standardzeug funktioniert.

Ein richtiger Wow-Moment war mit Ollama. Das ist eine Software, mit der man große Sprachmodelle sehr einfach installieren und vor allem laufen lassen kann. Ollama lässt sich auch einfach ohne Verrenkungen auf dem GH200 installieren. Einfach den Anweisungen auf der Website folgen. Ein Befehl, zacki-zacki, Ollama drauf. ChatGPT, beziehungsweise Anthropic Cloud-Qualität, darf man mit allen aktuellen Open-Source-Modellen noch nicht ganz erwarten. Aber die Dinger sind inzwischen wirklich brauchbar geworden.

Kleine Sprachmodelle wie Llama 3.1.8B mit 8 Milliarden Parametern und einer Dateigröße von 4,7 GByte passen auch in den Grafikspeicher von Consumer-Grafikkarten und laufen da schön schnell. Dafür braucht man keinen 32.000-Euro-Rechner. Ich habe aber mal ein paar LLM-Benchmarks mit kleinen LLMs und meinem eigenen LLM-Benchmark gemacht und die mit dem dicken hier verglichen. Mein eigener Rechner hat eine RTX 4090 mit 24 GByte Speicher, und tatsächlich ist der achtmal so teure GH200-Rechner bei den meisten Ollama-Sprachmodellen nur so zwischen 30 und 60 Prozent schneller als mein Rechner mit RTX 4090. Aber dafür müssen die Modelle auch erstmal auf meiner 4090 laufen, was nur gut geht, wenn sie in den 24 GByte GPU-Speicher passen.

Der GH200 hat ja 96 GByte GPU-Speicher. Da passen also ganz andere Modelle rein, zum Beispiel der Nemotron 70B. Das Ding ist 43 GByte schwer in der 4-Bit-Quantisierung und passt easy in den Grafikspeicher des GH200, wo es super schnell läuft. Er läuft aber auch auf meinem Rechner mit RTX-4090, indem Teile in meinen 32 GByte Arbeitsspeicher ausgelagert werden, was dazu führt, dass er auf dem GH200 um den Faktor 20 schneller läuft. Also riesen Unterschied. Aber generell, der Nemotron mit 70 Milliarden Parametern ist schon ziemlich brauchbar, gerade bei Coding-Sachen. Er kann sich auch bei meinem persönlichen LLM-Benchmark, dem Martin-Luther-Witz, ganz gut behaupten.

Und dann sind da noch die richtig dicken Modelle, wie zum Beispiel Llama 31405B, 229 GByte schwer. Das kann ich auf meinem 4090-Rechner natürlich vergessen, weil der Speicher einfach nicht ausreicht. Der GH200 hat zwar nicht genügend GPU-RAM, aber eben zusätzlich 480 GByte Arbeitsspeicher. Damit kann man das riesige Modell also nutzen, allerdings wegen des verteilten Speichers nur mit 0,5 Tokens pro Sekunde. Das ist extrem langsam, eigentlich zu langsam für die Praxis. Aber klar, wenn man ein lokales Sprachmodell laufen lassen will, das in den 96 GByte GPU-RAM des GH200 passt und für Consumer-GPUs zu groß wäre, dann wäre das eine sinnvolle Anwendung für diese 32.000-Euro-Kiste.

Aber da muss ja eigentlich auch noch mehr gehen, dachte ich mir. Es gibt ja etliche lokal laufende KI-Anwendungen, also Bildgeneratoren wie Stable Diffusion und Flux oder Videogeneratoren wie OpenSora oder CogVideo, und Transkriptions-Tools wie Whisper. Man kann sich vorstellen, dass Leute und Firmen, die sowas regelmäßig nutzen, sich die Anschaffung eines so teuren Rechners lohnen würde, weil die meisten sowas in der Cloud machen, wo die Miete von Cloud-GPUs sehr teuer ist.

Jetzt kommen wir in gefährliches Territorium, was meine Computerkenntnis-Credibility angeht. Wer den Channel hier regelmäßig guckt, weiß, dass ich zwar versuche, immer alles zu lernen, aber definitiv kein Server-, Programmierungs-, Linux-, Python-Superexperte bin. Ich bin in der Lage, die erwähnten KI-Tools auf unterschiedlichen Rechnern zu installieren, aber das ist dann immer x86-basiert, und die GH200-Kiste nutzt halt ARM. Da fangen dann die Probleme an. Man kann z.B. nicht das von mir sehr geschätzte Installationstool Pinocchio nutzen, und auch die auf den GitHub-Projektseiten geteilten Installationsanleitungen funktionieren meistens nicht.

Natürlich dachte ich zuerst, das liegt an mir, weil auch auf x86-Maschinen ist das oft mit virtuellen Python-Umgebungen verbunden und nicht so trivial. Aber mit ARM wird es richtig fummelig. Ich habe den Fehler erst bei mir gesucht, aber einige Sachen funktionieren einfach nicht. Zum Beispiel die Machine-Learning-Library PyTorch, die die Basis für etliche KI-Projekte ist, konnte ich nicht out of the box mit der Nvidia-CUDA-Plattform verwenden, sondern das lief nur über einen von Nvidia bereitgestellten Docker-Container, was alles noch komplizierter machte. Ich habe es damit zumindest hinbekommen, Whisper über CUDA zum Laufen zu bringen, aber das war super lahm und letztendlich nicht brauchbar.

Kurz vor Veröffentlichung dieses Videos habe ich noch das Bildgenerier-Modell Flux 1.0 mit 1024x1024 Bildpunkten ausprobiert. Es brauchte 4,7 Sekunden. Exakt die gleiche Konfiguration auf zwei anderen Rechnern ausprobiert: einmal mit einer RTX 4090, da brauchte das Ganze 12,8 Sekunden, und mit einer RTX 3090 waren es 28 Sekunden. Andere KI-Software, zum Beispiel für Videogenerierung, leider alles ohne Erfolg, nur Fehlermeldungen.

Fazit

Ich bin mir sicher, dass jetzt einige Leute aus dem Gebüsch kommen und mir erzählen, wie man das alles total einfach hinbekommen würde. Das kann sein. Aber ich traue mir zu, jetzt zu sagen – und das ist die Essenz dieses Videos: Glaubt nicht, dass ein vermeintlicher Supercomputer mit krassen Specs einfach alle eure Probleme löst. Die Zielgruppe für einen 32.000-Euro-Rechner ist natürlich klein. Aber ich bin mir sicher, dass viele von euch, wie ich, oft gedacht haben: „Boah, wenn ich diese Rechenzentrum-Hardware hier hätte, was man da alles machen könnte.“ Die Realität ist: Kann man nicht. Zumindest nicht, wenn man vorhandene Software ohne Anpassungen nutzen will.

Jetzt sagen einige: „Wer so einen Rechner kauft, weiß das alles.“ Das mag in vielen Fällen stimmen. Aber es gibt bestimmt Anwendungsbereiche, wo normale Leute, sprich Nicht-Coder, überlegen, sich sowas in die Firma zu stellen, um lokal Dinge mit generativer KI zu machen. Mit über Ollama anzapfbaren Sprachmodellen geht das ja super, wie ich im Video gezeigt habe. Aber alles andere unbedingt vorher ausprobieren und vorm Kauf einen SSH-Zugang geben lassen. Echte Workstations von großen Herstellern haben Listen mit garantierter Software und oft Optimierungsanleitungen. Mach ich jetzt Kaufberatung für teure Workstations? Finde ich lustig. Aber vielleicht haben die 99 Prozent von euch, die sowas nie kaufen würden, auch was gelernt und sich gefragt: Was wäre, wenn man sowas hätte? Ich habe auf jeden Fall viel gelernt. Wie ist es bei euch? Schreibt gerne in die Kommentare und abonniert. Tschüss!

c't 3003 ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen und Lukas Rumpler sowie die Video-Producer Şahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.