Hot Chips: Vergangenheit, Gegenwart und Zukunft von KI-Beschleunigern

KI-Prozessoren sind zwar relativ neu, stoßen aber bereits an technische Grenzen. Auf dem Hot Chips Symposium wurden Wege für künftige Generationen aufgezeigt.

In Pocket speichern vorlesen Druckansicht 24 Kommentare lesen
Künstliche Intelligenz, Informationsfreiheit

(Bild: Gerd Altmann, Lizenz CC0 / Public Domain)

Lesezeit: 4 Min.
Von
  • Florian Müssig

Die Hersteller von Prozessoren, die speziell zur Berechnung neuronaler Netze gedacht sind, stecken trotz der relativ neuen Produktkategorie in einem Dilemma fest. So sind zur Lösung komplexer KI-Probleme um ein vielfaches komplexere Netzwerke als bislang nötig, was den Speicher- und Rechenbedarf in die Höhe treibt. Gleichzeitig ist aber auch das Mooresche Gesetz am Ende angekommen: Künftige Performancesteigerungen durch neuere Hardware kommen also langsamer und langsamer. Song Han vom MIT hat in seinem Vortrag auf dem derzeit in Cupertino stattfindenden Hot Chips Symposium bisherige Ansätze dargestellt und Ansätze für künftige Prozessoren aufgezeigt.

KI-Beschleuniger lassen sich in vier Generationen einteilen.

(Bild: Song Han (MIT))

Die erste Generation von KI-Prozessoren, zu denen unter anderem Googles erste TPU und Nvidias Kepler-GPUs zählen, bestanden aus vielen parallelen Rechenwerken. Die dadurch erzielbare theoretische Maximalleistung wurde in der Praxis allerdings nur in den seltensten Fällen tatsächlich erreicht: Die Speicheranbindung hat üblicherweise nicht ausgereicht, um die Rechenwerke permanent zu beschäftigen – sie mussten stattdessen zwischendurch Däumchen drehen.

Wenig verwunderlich wurde bei der zweiten Chipgeneration wie Googles TPU v2, die KI-Beschleuniger Diannao beziehungsweise Eyeriss, Nvidias Volta-GPUs und Microsofts Brainwave-Chip genau hier angesetzt: Die Chips bekamen große und extrem schnelle Speicherchips. Vornehmlich wurden HBM(2) direkt am Chip platziert. Das grundsätzliche Konzept blieb aber gleich: Das jeweils zu lösende Problem beziehungsweise das zugehörige neuronale Netz werden auf vergleichsweise generischer Hardware berechnet.

Neuronale Netze lassen sich stark komprimieren, ohne dass die Fehlerraten dadurch ansteigen.

(Bild: Song Han (MIT))

Für die dritte Generation an KI-Beschleunigern muss deshalb das Gesamtsystem aus Software und Hardware optimiert werden: Wenn bei der Hardware keine allzu großen Fortschritte machbar sind, müssen halt die Algorithmen verbessert werden. So kann man regulär trainierte, komplexe Netze nachträglich auf bis zu ein Zehntel der Originalgröße ausdünnen, ohne dass dadurch merklich schlechtere Ergebnisse erzielt werden. Durch ein Nachtrainieren des ausgedünnten Netzes kann man sogar wieder die Originalgenauigkeit erzielen oder gar übertreffen.

Die Idee des Ausdünnens, also der Reduktion von Knoten (Zellen) und Verbindungen (Synapsen), stammt wie das Konzept der neuronalen Netze an sich von Mutter Natur: Während das Gehirn eines Neugeborenen nur zirka 50 Billionen Synapsen hat, erhöht sich diese Anzahl im ersten Lebensjahr auf 1000 Billionen. Danach fällt sie bis zum Erwachsenwerden auf 500 Billionen ab.

Dieses Ausdünnen ist umso beachtlicher, als dass der Mensch dabei ja nicht dümmer wird, sondern im Gegenteil viele neue Sachen erst noch lernt. Der aktuelle Stand der Forschung hält das Ausdünnen der Synapsen übrigens nicht für eine Degeneration, sondern für einen zwingend notwendigen Prozess: Krankheiten wie Schizophrenie lassen sich auf zu viele bestehen gebliebene Synapsenverbindungen zurückführen.

Um Speicher- wie Rechenaufwand weiter zu optimieren, lassen sich nicht nur die Modelle, sondern auch deren Gewichtungsmatrizen komprimieren – etwa indem Nullwerte entfernt und leicht unterschiedliche Gewichte durch "Rundung" denselben Wert bekommen – was eine weitere Kompression zulässt. Das von Han mitgegründete und inzwischen von Xilinx aufgekaufte Startup DeePhi bietet Programme an, die die Optimierungsarbeit automatisch erledigen.

KI erschafft bessere KI: AMC komprimiert das neuronale Netz MobileNet stärker und schneller als ein Mensch.

(Bild: Song Han (MIT))

Für eine künftige vierte Generation von KI-Beschleunigern helfen dann keine reinen Software-Optimierungen mehr: Stattdessen muss Hardware gezielt für bestimmte Typen von neuronalen Netzen entwickelt werden. Solche Projekte stecken noch in den Kinderschuhen, doch in Laboren werkeln bereits erste Exemplare wie der Squeezelerator für SqueezeNext, DeePhis DPU v2 für Depth-wise Convolution oder der ShiftNet Accelerator für ShiftNet.

Optimierungen durch Menschen sind in dieser Stufe kaum noch zielführend: KIs wie AMC (AutoML for Compression) können andere Netze schon jetzt stärker komprimieren als menschliche Spezialisten. Obendrein sind die komprimierten Netze dann auch noch schneller. KI erschafft also neue KI – Skynet lässt grüßen. (mue)