Groq: KI-Prozessor schafft eine Billiarde Operationen pro Sekunde

Der neuartige Tensor Streaming Processor des Start-ups Groq verarbeitet KI-Algorithmen mit bis zu 1 Peta-Ops/s.

62

Tensor Streaming Processor (TSP) von Groq

(Bild: Groq)

18.11.2019, 17:35 Uhr

Lesezeit: 2 Min.

c't Magazin

Von

Christof Windeck

Das Start-up Groq aus dem Silicon Valley hat einen Tensor Streaming Processor (TSP) mit neuartiger Mikroarchitektur entwickelt, der bestimmte KI-Algorithmen mit einer Billiarde Operationen pro Sekunde verarbeiten soll. Muster des TSP sind nach Firmenangaben bereits bei Pilotkunden im Testbetrieb. Der TSP sitzt auf einer PCI-Express-Karte, ist also zum Einsatz als Rechenbeschleuniger in Servern gedacht.

Junge Firmen, die Spezialprozessoren für KI- und Machine-Learning-Algorithmen entwickeln, schießen wie Pilze aus dem Boden. Offenbar ist es relativ einfach, bei Finanzinvestoren Risikokapital für KI-Chips einzuwerben. Groq kann mit seiner Gründer-Riege und erfahrenen Experten punkten: Jonathan Ross war an der Entwicklung von Googles Tensor Processing Units (TPUs) beteiligt, die mittlerweile in dritter Generation als TPU v3 in Googles Cloud rechnen. Michelle Tomasko war zuvor bei Nvidia und Google, Dale Southard war Principal System Architect für Nividia Tesla.

Neuartige Mikroarchitektur

Groq setzt nach eigenen Angaben auf eine neuartige Mikroarchitektur, bei der Software beziehungsweise ein spezieller Compiler die wesentliche Rolle spielt. Dadurch lässt sich laut Groq eine Menge Siliziumfläche einsparen, damit möglichst viele Transistoren des TSP tatsächlich auch Nutzwert liefern.

Bei welcher Genauigkeit der TSP auf 1 PetaOps/s kommt, verrät Groq bisher allerdings nicht; INT8 wäre ein wahrscheinlicher Wert. Bei Gleitkommaberechnungen (Floating Point) soll der Groq-TSP bis zu 250 TFlops erreichen; auch hier fehlt eine Angabe wie FP16 oder BFloat.

Groq verspricht erhebliche Vorteile im Vergleich zu Prozessoren und GPUs mit KI-Erweiterungen sowie zu FPGA-Chips, legt aber bisher keine konkreten Vergleichswerte etwa mit dem MLPerf-Benchmark vor. Wegen der raschen Fortschritte auch bei den Algorithmen selbst ist ein Leistungsvergleich zu Konkurrenten wie Nvidia (Tesla V100/Xavier), Intel (Xeon, NNP-T1000, NNP-I1000, Mobileye Eyeq, Movidius Myriad, Stratix), AMD (Radeon Instinct), Habana (Goya), Huawei (Ascend), Alibaba (Hanguang/Pingtouge), Tesla (FSD), Xilinx (Alveo/Versal), Cerebras, Wave Computing, Mythic, Kalray, LeapMind, Prophesee, Micron (Fwdnxt) oder auch Graphcore (Colossus) schwierig. (ciw)