Huawei konkurriert mit vielen Chips gegen Nvidia

Mit einer schieren Masse von Ascend-910C-Beschleunigern baut Huawei Server, die teils schneller sein sollen als Nvidias Blackwell-Systeme.

vorlesen Druckansicht 11 Kommentare lesen
Shot,Of,Data,Center,With,Multiple,Rows,Of,Fully,Operational

Symbolbild mit gerenderten Racks.

(Bild: Gorodenkoff/Shutterstock.com)

Lesezeit: 2 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Huawai sorgt mit seinem neuen Serversystem Cloudmatrix 384 seit vergangener Woche für Schlagzeilen. In Sachen Rohleistung soll das Cloudmatrix 384 Nvidias aktuelle Topsysteme wie das GB200 NVL72 ein- und teilsweise überholen. Auch bei Huawei ist die Anzahl der eingesetzten KI-Beschleuniger namensgebend – in dem Fall 384 Ascend 910C.

Die gut vernetzte Webseite Semianalysis stellt beide Systeme gegenüber. Ein einzelner Ascend 910C ist erheblich langsamer als Nvidias Blackwell-Beschleuniger. Die hohe Rohleistung erreicht Huawei durch die schiere Anzahl von KI-Beschleunigern. Im Datenformat Bfloat16 etwa sollen 384 Ascend 910C 300 Billionen Rechenoperationen pro Sekunde (300 Petaflops) schaffen. Nvidias GB200 NVL72 steht bei 180 Petaflops, schafft in noch schmaleren Datenformaten wie FP4, FP8 und INT8 aber noch höhere Werte. Bei vierbittigen Rechenoperationen etwa erreicht ein GB200 NVL72 laut Datenblatt 1,44 Exaflops (1440 Petaflops).

KI-Update abonnieren

Dreimal die Woche Updates zu den wichtigsten KI-Entwicklungen.

E-Mail-Adresse

Ausführliche Informationen zum Versandverfahren und zu Ihren Widerrufsmöglichkeiten erhalten Sie in unserer Datenschutzerklärung.

Die hohe Anzahl von Beschleunigern erschwert insbesondere die Vernetzung untereinander. Huawei setzt auf optische 400-Gbit/s-Verbindungen, damit die Chips gemeinsam KI-Modelle trainieren können. Die Hardware teilt sich auf insgesamt 16 Racks auf: 12 für die Rechenbeschleuniger und vier für die Netzwerk-Switches.

Neben der hohen Komplexität hat der Aufbau vor allem einen weiteren Nachteil: die elektrische Leistungsaufnahme. Ein Cloudmatrix-384-System soll etwa 560 Kilowatt aufnehmen – fast viermal so viel wie ein GB200 NVL72. Das wiederum erschwert die Kühlung der Komponenten.

Videos by heise

Zudem ist das Cloudmatrix 384 kein rein chinesischer Nvidia-Konkurrent. Die Compute-Chiplets für den Ascend 910C sollen größtenteils vom taiwanischen Chipauftragsfertiger TSMC stammen. Huawei soll über eine Mittelsfirma zeitweise TSMCs Lieferstopp umgangen und mehrere Millionen Chiplets gehortet haben. Der chinesische Chipauftragsfertiger SMIC kann die Chiplets zwar ebenfalls mit 7-Nanometer-Technik herstellen, bisher mutmaßlich aber nur in vergleichsweise geringer Stückzahl.

Die Stapelspeicher vom Typ High-Bandwidth Memory (HBM2e) stammen offenbar von Samsung. Die Exporteinschränkungen von HBM nach China haben die USA erst Ende 2024 forciert. Laut Semianalysis sind chinesische Firmen allerdings bei der Umgehung von Handelsrestriktionen kreativ.

Die Einschränkungen gelten für einzeln verkauften HBM und für schnelle KI-Beschleuniger. Zur Umgehung kombinieren Exporteure angeblich absichtlich langsame und günstige Chips mit HBM2e auf einem Träger und verkaufen diese nach China, wo die Speicherbausteine dann heruntergelötet werden.

Auch Entwicklungs-Tools und Chemikalien sollen teils weiter aus dem Ausland stammen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(mma)