AWS: Neue Cloud-Instanzen mit Trainium2-Chips für mehr KI-Leistung

Deutlich bessere Trainings- und Inferenzzeiten für KI-Modelle verspricht AWS mit seiner neuen Hardwaregeneration Trainium2.

(Bild: Amazon)

07.12.2024, 13:22 Uhr

Lesezeit: 3 Min.

iX Magazin

Von

Cornelius May

Machine Learning nahm bei der jährlichen Hausmesse re:Invent von Amazon Web Services (AWS) einen prominenten Raum ein – auch wenn es um neue Hardware geht. Im Fokus standen dabei die mit Trainium2-Chips betriebenen EC2 UltraServers sowie EC2-Instanzen, die nun verfügbar sind. Die neuen Trn2-Instanzen bieten laut AWS 20,8 Petaflops Rechenleistung pro Instanz und ein bis zu 40 Prozent besseres Preis-Leistungs-Verhältnis im Vergleich zu den GPU-basierten EC2-P5-Instanzen.

Ein Trn2-UltraServer besteht aus vier Trn2-Instanzen, die über eine NeuronLink-Verbindung miteinander verbunden sind. Diese Architektur soll eine Skalierung der Rechenleistung auf bis zu 83,2 Petaflops ermöglichen, um damit die Trainings- und Inferenzzeiten für die weltweit größten KI-Modelle zu reduzieren. Modelle mit bis zu einer Billion Parametern könnten so mit verbesserter Latenz verarbeitet werden.

"Project Rainier" für KI-Cluster

Weiterhin kündigte AWS das "Project Rainier" an, das Hunderte von Trainium2-UltraServers zu einem EC2-UltraCluster vereint und so eine Erhöhung der Clustergröße im Vergleich zu bestehenden Lösungen ermöglicht. Diese UltraCluster kommen in Organisationen wie Anthropic beim Training von KI-Modellen zum Einsatz. Anthropic setzt sie demnach etwa ein, um Claude-Modelle für Amazon Bedrock auf Trainium2 zu optimieren. Mit dieser Infrastruktur soll es Kunden möglich sein, Modelle mit Billionen von Parametern effizient zu trainieren und in Echtzeit zu nutzen.

Lesen Sie auch

Nova: Amazons neue multimodale KI-Modell-Familie ist da

AWS betonte, dass es nicht ausreiche, die Größe von Clustern zu erhöhen, um die Leistung zu verbessern. Stattdessen verbessere die neue Architektur der Trainium2 UltraServers die Datenverteilung und Ressourcenzuordnung. Dadurch werde die Gesamtzeit für das Training verkürzt, ohne auf herkömmliche Netzwerkgrenzen zu stoßen.

Neue Instanzen mit Nvidia Blackwell und Ausblick

Zusätzlich zu den Trainium2-Lösungen stellte AWS die EC2 P6-Instanzen vor. Sie basieren auf der nächsten Generation der Blackwell-GPUs von Nvidia. Im Vergleich zur aktuellen Generation verspricht AWS eine bis zu 2,5-fach höhere Leistung sowie eine Optimierung speziell für rechenintensive generative KI-Anwendungen. Die P6-Instanzen sieht AWS vor allem bei Anwendungen, die schnelle Reaktionszeiten und hohe Skalierbarkeit benötigen.

Als Nachfolger von Trainium2 kündigte AWS auch schon den kommenden Trainium3-Chip an. Dieser wird mit einem 3-Nanometer-Prozess gefertigt. Seinem Vorgänger gegenüber soll er energieeffizienter und viermal leistungsstärker sein. Kunden könnten so Modelle schneller iterieren und in Echtzeit einsetzen. Trainium3 wird voraussichtlich in späteren Versionen der UltraServer verfügbar sein.