Facebook/Meta: KI-Supercomputer "RSC" fĂĽr Echtzeitanalyse sozialer Medien
Der AI Research SuperCluster soll mit Nvidia-Technik auf 5 Exaflops KI-Rechenleistung ausgebaut werden, um riesige KI-Modelle zu trainieren.
Der Facebook-Konzern Meta hat seit 2020 ein neues Rechenzentrum aufgebaut für den KI-Forschungscomputer AI Research SuperCluster (RSC) mit zunächst 1,895 Exaflops Gleitkommarechenleistung bei einfacher Genauigkeit (FP32).
Der RSC besteht im Wesentlichen aus 760 Nvidia-DGX-A100-Systemen, in denen je acht A100-Beschleuniger stecken, also insgesamt 6080 A100-Module. Meta will den RSC aber im Verlauf des Jahres 2022 auf rund 16.000 A100-Beschleuniger erweitern. Dann soll das System rund 5 Exaflops KI-Rechenleistung bei Mixed-Precision-Datenverarbeitung liefern.
Die Flash-Speichersysteme mit insgesamt 175 Petabyte Kapazität kauft Meta von Pure Storage zu. Die Firma Pengiun Computing steuert ein Cache-System (Altus) mit 46 PByte bei, weitere 10 PByte fasst ein Pure Storage FlashBlade.
Zur Vernetzung kommt wiederum Nvidia-Technik zum Einsatz, nämlich Infiniband mit 200 Gbit/s. Bei dem Nividia-System sind die A100-Beschleuniger direkt daran angebunden, also nicht indirekt über die jeweiligen (AMD-Epyc-)Prozessoren.
Es ist interessant, dass Meta nicht auf einen Systemaufbau mit Hardware nach Spezifikationen des Open Compute Project (OCP) setzt, das Facebook selbst 2011 ins Leben gerufen hat. Stattdessen kommt im Wesentlichen proprietäre Technik von Nvidia zum Einsatz.
Riesige KI-Modelle
Meta will den RSC vor allem zum Training noch größerer KI-Modelle nutzen. Wie das Unternehmen in einem Blog-Eintag erklärt, sollen Modelle mit bis zu 1 Billion Parametern und Datensätze mit bis zu 1 Exabyte Umfang verarbeitet werden. Als eines von mehreren Zielen nennt Meta die Erkennung gefährlicher Social-Media-Postings in Echtzeit. Dazu müssten die KI-Modelle beispielsweise noch wesentlich mehr unterschiedliche Sprachen auswerten können.
(ciw)