Freier GPU-Server-Stresstest: Wie schlagen sich Amazon AWS und Google Cloud?

Mit seinem Open-Source-Tool hat ein IT-Blogger die Startzeiten für GPU-Server der Google Cloud und AWS verglichen. Das Amazon-Angebot ist deutlich flotter.

In Pocket speichern vorlesen Druckansicht 3 Kommentare lesen
Lesezeit: 2 Min.

Der IT-Blogger und ML-Ingenieur Pierce Freeman hat die Start-Geschwindigkeiten der GPU-Server-Angebote von AWS und Google Cloud Platform (GCP) miteinander verglichen. Seine Ergebnisse fallen eindeutig aus: AWS-Server sind deutlich schneller einsatzbereit.

Freeman spricht von einem Benchmark-System, mit dem er die Verfügbarkeit von AWS- und GCP-Cloud-Servern gegenübergestellt habe. Tatsächlich testete er mit seinem Tool die Startup-Zeit der GPU-Server der beiden Anbieter. Dabei schnitt AWS insgesamt deutlich besser ab: Im Mittel brauchten GCP-Maschinen ganze 42,6 Sekunden bis zur Betriebsbereitschaft, bei einer im Vergleich recht hohen Streuung der Start-Zeiten. AWS-GPU-Server waren im Durchschnitt hingegen schon nach 11,4 Sekunden bereit und dabei recht konstant: Freeman muss fast nie mehr 15 Sekunden warten.

Die GPU-Server von AWS waren im Test des IT-Bloggers Pierce Morgan recht stabil und schnell verfügbar, GCP variierte stark und war durchgängig langsamer.

(Bild: Pierce Freeman/ https://freeman.vc/ )

Auch beobachtete er bei GCP deutlich mehr Fehlermeldungen mit fehlgeschlagenen Starts. Das könnte aber auf eine Ungenauigkeit beim Test zurückzuführen sein, wie ein User bei Hacker News schreibt, der vorgibt, bei GCP angestellt zu sein. Offenbar hatte Freeman im Test nicht eindeutige Instanznamen verwendet, was er bei GCP aber hätte tun müssen.

Methodisch prüfte Freeman die Startup-Zeiten über einen Zeitraum von zwei Wochen und zufällig verteilt über Tageszeiten, um mögliche Ressourcenengpässe abzufedern. Insgesamt hat Freeman bei beiden Anbietern jeweils 3.000 Nvidia Tesla T4 GPUs gestartet. Nach eigenen Angaben hat der ML-Ingenieur für seinen Test 150 US-Dollar an Cloud-Gebühren ausgegeben, wie er in seinem Blogbeitrag schreibt.

Motiviert habe ihn der verbreitete Irrglaube, bei Cloud-Computing-Angeboten handele es sich um eine unendliche Ressource. Dass das nicht zutrifft und durchaus endliche, physische Hardware im Hintergrund arbeitet, zeige sich vermehrt vor allem im Bereich der GPU. Die Grafikbeschleuniger sind in Zeiten von Corona-indizierten Lieferengpässen, dem allgegenwärtigen Crypto-Mining-Fieber und immer komplexeren Deep-Learning-Modellen besonders stark von Engpässen betroffen. In letzter Zeit häuften sich aber die Anzeichen, dass ein Ende der Chipkrise in Sicht ist. Das beim Benchmark verwendete Open-Source-Tool stellt Freeman kostenlos bei GitHub zur Verfügung.

(jvo)