Stärkere KI-Server in der Google-Cloud: TPU v5p

Googles neues KI-Modell Gemini wurde auf hauseigenen Tensor Processing Units der fünften Generation trainiert, die ihre Vorgänger übertrumpfen.

KI-Beschleuniger Google TPU v5p

(Bild: Google Cloud/YouTube)

07.12.2023, 15:39 Uhr

Lesezeit: 3 Min.

c't Magazin

Von

Christof Windeck

Zusammen mit dem neuen KI-Modell Gemini präsentierte Google eine neue Variante der fünften Generation seiner selbst entwickelten KI-Beschleuniger, die das Unternehmen Tensor Processing Units (TPUs) nennt. Die im Spätsommer eingeführte TPU v5e zielt eher aufs Inferencing, die neue TPU v5p auch aufs Training, vor allem von sehr großen KI-Modellen. Vor sieben Jahren stellte Google die erste TPU-Generation vor, die nur in Servern der Google Cloud zum Einsatz kommen.

Google ist zwar sehr stolz auf die TPU v5p, veröffentlicht aber nur Teile der technischen Daten. Dabei scheint Google die KI selbst zu nutzen, um gezielt Performance-Werte auszuwählen, die sich möglichst schlecht mit konkurrierenden Chips vergleichen lassen. Das Maß der Dinge beim KI-Training ist zurzeit die Nvidia H100 „Hopper“ und deren Varianten, erst am Mittwoch stellte AMD seinen „H100-Killer“ Instinct MI300X vor. 2024 plant Nvidia allerdings wiederum stärkere Hopper-Varianten mit deutlich mehr High Bandwidth Memory vom Typ HBM3e.

KI-Beschleuniger von Google, Nvidia und AMD
Hersteller	Google			Nvidia		AMD
KI-Beschleuniger	TPU v4	TPU v5e	TPU v5p	H100 SXM	A100 80GB SXM	Instinct MI300X
TFlops BFloat16	275	197	459	989 (1979)	312 (624)	1307 (2614)
TOPS Int8	–	394	918	1979 (3958)	624 (1248)	2614 (5229)
lokales RAM	32 GByte	16 GByte	95 GByte	80 GByte	80 GByte	192 GByte
Transferrate RAM	1,23 TByte/s	0,82 TByte/s	2,77 TByte/s	3,35 TByte/s	2,04 TByte/s	5,30 TByte/s
Transferrate Interface	300 GByte/s	200 GByte/s	600 GByte/s	900 GByte/s	600 GByte/s	896 GByte/s
TDP	k.A.	k.A.	k.A.	700 Watt	400 Watt	750 Watt
Rechenleistung in Klammern: bei dünn besetzten Matrizen (Sparsity); Google spezifiziert das nicht exakt

Schwieriger Datenvergleich

Der Vergleich der TPU v5p mit der Konkurrenz ist schwierig, weil Google einerseits nicht genau verrät, ob sich die BFloat16- und Int8-Rechenleistung auf die Verarbeitung dünn besetzter Matrizen (Sparsity) bezieht. Das ist aber entscheidend, denn dabei verdoppelt sich die Rechenleistung vieler KI-Beschleuniger im Vergleich zu Berechnungen ohne Sparsity.

Andererseits verschweigt Google bewusst die Leistungsaufnahme der einzelnen Chips. Da sich die TPU v5p nur im Google-Rechenzentrum nutzen lässt, ist ihr Energiebedarf zwar nicht praktisch relevant. Um die Effizienz in Rechenleistung pro Watt einschätzen zu können, aber schon.

Blick in ein Google-Cloud-Rechenzentrum mit TPU v5p — Google zeigt die KI-Beschleuniger TPU v5p nicht im Detail, sondern nur die hauseigenen "Pods", in den jeweils bis zu 8960 Stück davon rechnen.

(Bild: Google Cloud)

Google verrät immerhin, dass 8960 TPU-v5p-Chips in einen „Pod“ (ein Rack) passen. Nvidia kann bisher höchstens 32 H100-Chips in ein 19-Zoll-Rack packen (vier Server mit je acht Modulen), weil es dann schon fast 40.000 Watt (40 kW) Leistung aufnimmt, die sich nur aufwendig wegkühlen lassen. Damit kann Google sehr viel mehr KI-Rechenleistung in einen Pod packen als Nvidia in einen 19-Zoll-Schrank, aber Google verrät wiederum nicht, wie groß ein solcher Pod ist.

Google veröffentlicht nicht einmal Fotos der TPU v5p, das Bild zu dieser Meldung stammt aus einem Video, das nur kurz über die Chips schwenkt.

Klar ist nur: Google hat jetzt erheblich schnellere hauseigene KI-Beschleuniger als bisher und ist dabei auch nicht von der Liefersituation und den hohen Preisen der Nvidia-Chips abhängig.

Preise nennt Google hingegen schon: Eine „GPU-Stunde“ auf einer TPU v5p kostet 4,22 US-Dollar Miete in der Google Cloud; für eine TPU v4 verlangt Google hingegen 3,22 US-Dollar pro Chip und Stunde und für die TPU v5e nur 1,20 US-Dollar.

Hören Se dazu auch:

Podcast KI-Update Deep-Dive: Kleine Teilchen, große Wirkung - der KI-Prozessor

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Podcasts immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.