Metas KI-Beschleuniger mit RISC-V-Kernen soll Nvidia überholen

Vier KI-Beschleuniger in zwei Jahren, so lautet Metas Ziel. 2027 kommt der MTIA 500 mit 1700 Watt elektrischer Leistungsaufnahme.

6

Metas MTIA 400. Sechs Siliziumbestandteile dienen offenbar bloß der Stabilisierung des Konstrukts.

(Bild: Meta)

17:36 Uhr

Lesezeit: 4 Min.

Von

Mark Mantel

Metas KI-Beschleuniger mit RISC-V-Kernen soll Nvidia überholen

Der KI-Beschleuniger MTIA 300 läuft bereits produktiv in Meta-Rechenzentren; jetzt stellt Meta auch MTIA 400 vor, der die Labortests abgeschlossen hat und kurz vor dem Feldeinsatz steht. Das ist noch nicht alles: Bereits 2027 will Meta zwei weitere Generationen in seine Rechenzentren bringen und in manchen Anwendungsfällen KI-Beschleuniger etwa von AMD und Nvidia abhängen.

MTIA steht zwar für „Meta Training and Inference Accelerator“, allerdings will sich Meta laut Ankündigung künftig auf Inferenz fokussieren. Dabei führen die Chips bereits trainierte KI-Modelle aus, etwa um Chatanfragen von Nutzern zu beantworten. Meta nennt Inferenz für generative KI als wichtigstes Einsatzgebiet seiner Chips. MTIA 400 soll der letzte „allgemeine“ Beschleuniger ohne diesen Fokus darstellen.

Chipletifizierung mit RISC-V

Der MTIA 400 besteht aus insgesamt fünf Chiplets plus vier Speicherstapeln vom Typ High-Bandwidth Memory (HBM; die Generation nennt Meta nicht konkret). In den zwei größten Chiplets sitzen die Rechenwerke. Ein sogenanntes Processing Element (PE) setzt auf zwei RISC-V-Kerne zur Verwaltung. Sie führen Code aus und lagern bestimmte Aufgaben über einen Command-Prozessor an spezialisierte Schaltkreise aus, können über ihre Vektoreinheiten aber auch selbst SIMD-artig (Single-Instruction-Multiple-Data) rechnen.

Metas KI-Beschleuniger bis 2027 (4 Bilder)

MTIA 300

(Bild:

Meta

)

Dazu gesellen sich Matrix-Einheiten (Dot Product Engines), Reduction Engines für die Akkumulationsrechnungen und Kommunikation mit anderen PEs, sowie DMA Engines (Direct Memory Access) für Datenbewegungen. Jede PE hat lokalen Cache, zudem teilen sich alle PEs einen gemeinsamen SRAM-Cache. In diesen Compute-Chiplets sitzen zudem die Speicher-Controller für das HBM.

In zwei weiteren Chiplets sitzen Netzwerk-Controller für insgesamt zwölf 800-Gbit/s-Verbindungen, über die Meta bis zu 72 KI-Beschleuniger aneinanderkoppelt. Ein System-on-Chip-Die enthält unter anderem PCI-Express-Controller und einen übergeordneten Control Core Processor (CCP) aus mehreren RISC-V-Kernen zur Ansteuerung des gesamten KI-Beschleunigers.

Ein MTIA 400 nimmt 1200 Watt auf, kommt mit 288 GByte HBM und schafft 12 Billiarden vierbittige Gleitkomma-Operationen pro Sekunde (12 FP4-Petaflops). Metas MX4-Angabe bezieht sich auf die sogenannten Microscaling Formats, die das Open Compute Project (OCP) aufbauend auf FP4 spezifiziert.

Spezifikationen der Meta-KI-Beschleuniger.

(Bild: Meta)

MTIA 450 und 500 gehen auf die 2000 Watt zu

Der MTIA 450 verwendet überarbeitete Compute-Chiplets und schnelleres HBM. Die Verdoppelung der Übertragungsrate auf 18,4 TByte/s bei gleichbleibender Kapazität von 288 GByte spricht für eine neue Generation, womöglich HBM4.

Meta will hier vor allem die FP4-Geschwindigkeit steigern. Die Rede ist von 21 Petaflops, ein Plus von 75 Prozent. Die elektrische Leistungsaufnahme steigt um 17 Prozent auf 1400 Watt. Ab Anfang 2027 soll der MTIA 450 einsatzbereit sein.

Später im Jahr 2027 folgt der MTIA 500. Meta visiert ein Performance-Plus von über 40 Prozent an. Die Compute-Chiplets sind ab da vier- statt zweigeteilt. Zudem steigt die Speicherkapazität auf 384 bis 512 GByte; die Übertragungsrate auf 27,6 TByte/s. Meta visiert dafür ein Energiebudget von 1700 Watt an.

Ein kompletter Server mit 72 KI-Beschleunigern von Meta.

(Bild: Meta)

Kürzere Entwicklungszeiten

Mit dem Chiplet-Ansatz will Meta gezielt die Entwicklung neuer KI-Beschleuniger verkürzen. Auch die restliche Hardware drumherum ist auf schnelle Wechsel ausgelegt: Alle vier Generationen sollen in denselben Servern laufen. So möchte Meta den schnellen Fortschritten in der KI-Entwicklung entgegenkommen. KI-Beschleuniger anderer Firmen will der Konzern trotzdem weiterhin einsetzen.

Videos by heise

Broadcom hilft Meta bei den Designs, wie auch vielen anderen Hyperscalern bei ihren KI-Beschleunigern. Zu den Strukturbreiten äußert sich Meta nicht; 2- oder 3-Nanometer-Fertigungstechnik von TSMC erscheint allerdings logisch.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Preisvergleiche immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.