Stapel-Prozessor: Das können sich AMD, Intel und Nvidia bei Graphcore abschauen

Graphcore lässt als Erster bei TSMC zwei Silizium-Wafer übereinanderstapeln, um die Taktfrequenzen und Effizienz seiner KI-Prozessoren deutlich zu steigern.

In Pocket speichern vorlesen Druckansicht 28 Kommentare lesen

(Bild: Graphcore)

Lesezeit: 4 Min.
Inhaltsverzeichnis

Der weltweit größte Chipauftragsfertiger TSMC hat die Massenproduktion von Prozessoren mit der Technik Wafer-on-Wafer (WoW) begonnen: Die britische Firma Graphcore nutzt sie, um die Taktfrequenzen seines 826 mm² riesigen KI-Prozessors Colossus und damit die Performance um bis zu 40 Prozent zu erhöhen.

Das eigentliche KI-Prozessor-Die bleibt mit 1472 Intelligence-Processing-Unit-Cores und 900 MByte SRAM-Cache weitgehend identisch – TSMC fertigt es weiterhin mit 7-Nanometer-Strukturen. Bevor die einzelnen Prozessoren aus dem Silizium-Wafer geschnitten werden, setzt TSMC jedoch einen zweiten Wafer mit gröberen Strukturen obendrauf.

Dieser zweite Silizium-Wafer enthält keine aktiven Transistoren, sondern unzählige sogenannte Deep-Trench-Kondensatoren (DTCs), die als Ladungsspeicher möglichst nah an den IPU-Kernen sitzen und die Stromzufuhr glätten. Sie kommen praktisch schneller hinterher als die Spannungswandler auf dem Mainboard.

Die Taktfrequenz der IPU-Kerne steigt somit von knapp 1,35 auf gut 1,85 GHz bei einer gleichzeitigen Erhöhung der Effizienz um 9 bis 16 Prozent je nach Trainingsmodell. Insbesondere die Effizienzsteigerung ist bemerkenswert, da zusätzlicher Takt üblicherweise quadratisch in die Spannungskurve einfließt. Die Leistungsaufnahme von Graphcores neuem Colossus-Prozessor steigt zwar, aber unterproportional zur Takterhöhung.

Analog zum Kerntakt arbeitet auch das integrierte SRAM schneller, sodass die Übertragungsrate innerhalb eines Prozessors auf 65 TByte/s steigt. Die Kommunikation zwischen den verschiedenen Prozessoren auf einem Mainboard verweilt mit 10 IPU-Links dagegen bei 320 GByte/s.

Bow-IPU mit gestapelten Wafern (3 Bilder)

Das bisherige Colossus-Die als Basis hat Graphcore nur leicht angepasst. Der Geschwindigkeitsschub kommt durch eine zweite Chiplage mit unzähligen Deep-Trench-Kondensatoren. (Bild: Graphcore)

Die Technik Wafer-on-Wafer ähnelt stark dem Chip-on-Wafer-Verfahren (CoW), das AMD beim Ryzen 7 5800X3D zum Aufsetzen eines zusätzlichen Cache-Dies verwendet. Bei WoW setzt TSMC jedoch nicht fertig ausgeschnittene Chips auf Prozessoren, sondern schneidet die finalen Chips aus zwei miteinander verbundenen Wafern. Bei AMD wäre das Siliziumverschwendung, weil das Cache-Die nicht die kompletten Compute-Chiplets abdeckt.

Bei Graphcore hat WoW dagegen technische Vorteile: Weil sich zwei Wafer filigraner aufeinander ausrichten lassen als ein einzelner Chip auf einem Wafer, kann TSMC die Durchkontaktierungen (TSVs) zwischen den beiden Siliziumlagen schmaler gestalten und so mehr TSVs auf der gleichen Chipfläche unterbringen.

Zudem kann TSMC den zweiten Wafer mit den Deep-Trench-Kondensatoren nach dem Aufsetzen stärker ausdünnen, da der Basis-Wafer mit den Colossus-Prozessoren das Konstrukt stabilisiert. TSMC setzt also zunächst beide Wafer aufeinander, bringt die Durchkontaktierungen ein, schleift den Zusatz-Wafer ab und schneidet dann erst die fertigen Prozessoren heraus. Genauso wie die CoW-Technik kommt WoW ohne Lötstellen oder Micro-Bumps aus.

Die Graphcore-Prozessoren zeigen eine weitere Möglichkeit, wie Chipdesigner ihre CPUs, GPUs und andere Prozessoren beschleunigen können. Auch AMD, Intel und Nvidia könnten die Technik künftig verwenden – alle drei sind Kunden bei TSMC.

Die Geschwindigkeitssteigerung ist groß genug, dass Graphcore mit der WoW-Technik eine neue Produktgeneration mit dem Codenamen Bow auflegt. Die kleinste Konfiguration Bow Pod 16 mit einer Mixed-Precision-Rechenleistung von 5,6 KI-PetaFlops nutzt vier 1U-Einschübe mit jeweils vier KI-Prozessoren und einen zusätzlichen 1U-Einschub als CPU-Server für die Verwaltung. Das Ganze reicht bis zum Bow Pod 1024 bestehend aus 16 Server-Schränken mit 358,4 KI-PetaFlops. Die Bow Pods sollen allerlei KI-Modelle schneller trainieren können als Nvidias DGX-A100-Server mit Ampere-Beschleunigern.

Hersteller-Benchmarks zu den Bow-KI-Prozessoren (5 Bilder)

(Bild: Graphcore)

Die Systeme befinden sich bereits in der Serienproduktion und werden zu identischen Preisen wie die Vorgänger an Partner verkauft. Graphcore kann die Produktionskosten laut eigener Aussage aufgrund eines höheren Fertigungsvolumens herunterskalieren.

Die Bow-Generation überbrückt die Wartezeit bis zum echten nächsten Graphcore-Prozessor, der voraussichtlich im Jahr 2024 erscheinen wird. Die Firma will darauf basierend den KI-Supercomputer "The Good Computer" mit einer KI-Rechenleistung von mindestens 10 ExaFlops auflegen. Gut betuchte Kunden sollen dieses System für 120 Millionen US-Dollar erstehen können.

Ab 2024 will Graphcore den "The Good Computer" mit 8192 Next-Gen-KI-Prozessoren anbieten.

(Bild: Graphcore)

(mma)