KI-Effizienz: Aleph Alpha und Graphcore erzielen Durchbruch beim Sparse Modeling

Bei der Supercomputing haben Graphcore und das deutsche KI-Unternehmen Aleph Alpha ein Sparse-Modell vorgestellt, das mit geringer Rechenleistung auskommt.

In Pocket speichern vorlesen Druckansicht 7 Kommentare lesen
Lesezeit: 5 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

Im Rahmen der Supercomputing Conference 2022, die vom 13. bis 18. November in Dallas, Texas, stattfindet, haben der britische Halbleiterhersteller Graphcore und das deutsche KI-Unternehmen Aleph Alpha einen Durchbruch beim Modellieren mit Sparsity vorgestellt. Wie bei einem Fireside Chat und in Livedemos vorgeführt wurde, konnten die Heidelberger auf der Hardware des britischen KI-Chipherstellers ihr kleinstes Basismodell Luminous Dense mit bislang 13 Milliarden Parametern durch die neue Technik auf 2,6 Milliarden Parameter reduzieren – unter Beibehaltung der meisten Fähigkeiten des Modells, wie die Anbieter betonen, bei gleichzeitiger Leistungssteigerung.

Gemessen am "dichten" Basismodell braucht das Sparse-Modell Luminous Base dem Forschungsteam zufolge zwanzig Prozent der bisher benötigten Verarbeitungs-FLOPs (Floating Point Operations) und 44 Prozent des Speichers. Unter dem Strich bedeutet das einen Forschritt in der KI-Rechenleistungseffizienz und beim noch wenig verbreiteten Sparse Modeling. Die Anforderung an die Rechenleistung sinkt dadurch deutlich, was den Betrieb solcher Modelle energieeffizienter und kostengünstiger machen soll: Laut Anbieter ist der Energieverbrauch des Sparse-Modells gegenüber dem Dense-Modell um 38 Prozent niedriger.

Milliarden Parameter erfordern eine entsprechende Rechenleistung: Die Anforderungen an die eingesetzte Hardware wachsen beim Skalieren der Modelle mit und der Energieverbrauch für Training und Inferenz steigt. Im bisher üblichen Dense-Verfahren fällt ein Großteil der Rechenkapazität für das Durchführen arithmetischer Rechenoperationen an den Parametern an, selbst wenn die aktivierten künstlichen Neuronen meist nicht relevant sind für die jeweils behandelte Aufgabenstellung und das Modellverhalten. Die so konstruierten Modelle werden als dicht (dense) bezeichnet, bei ihnen verpuffen Verarbeitungszeit und Speicherkapazität für die nicht benötigten Parameter. Aussagekräftige Parameter sind in den Modellen spärlich (sparse) verteilt, und nur auf sie kommt es beim jeweiligen Problem an.

Sparse-Modelle konzentrieren ihre Verarbeitungsleistung auf Elemente, die für das Lösen einer komplexen Aufgabe gerade am wichtigsten sind, ohne jedes Mal das gesamte Netz zu aktivieren – soweit eine etwas vereinfachende Erklärung. Auf der Hardwareseite erfordert das Verfahren eine andere Architektur, als GPUs sie sonst aufweisen. Das Design der KI-Chips muss detaillierte Parallelität über mehrere Dimensionen hinweg ermöglichen und Point Sparse Matrix Multiplications erlauben: So ist dann Multiple-Instruction, Multiple-Data (MIMD) möglich. Die Intelligent Processing Units (IPUs) von Graphcore weisen dieses Design auf, ihre Architektur ist gezielt für KI-Workloads entwickelt worden.

Schematische Gegenüberstellung der beiden Architekturansätze: links das Dense-Modell, rechts eine Sparse-Architektur

(Bild: Graphcore)

Aleph Alpha und Graphcore hatten im Juni 2022 ihre Forschungspartnerschaft bekanntgegeben und seither an Sparsity getüftelt. Die Reduktion des Basismodells um 80 Prozent auf eine Größe von 2,6 Milliarden Parametern ist eine bedeutsame Wegmarke, da das neue Modell Luminous Base Sparse somit vollständig auf einen IPU-POD16 Classic von Graphcore passt und dessen laut Hersteller ultraschnellen On-Chip-Speicher optimal nutzen kann, wodurch sich weitere Leistungssteigerungen erzielen lassen. Die Forschungsteams von Aleph Alpha und Graphcore haben dafür 80 Prozent des weniger relevanten Modellgewichts bereinigt und das Luminous-Modell mit den wichtigsten Parametern neu trainiert. Diese werden mit dem CSR-Format dargestellt (Compressed Sparse Rows).

Laut Aleph Alpha und Graphcore stellt Sparsification ein Gegengewicht zum exponenziellen Wachstum der KI-Modelle und dem damit wachsenden Bedarf an Rechenleistung dar. Zahlreiche Modellfunktionen für Sprache, Visualisierung und das kombinierte Verarbeiten von Text und Bild (Multimodalität) sind durch Wachstum, also das Skalieren der Parameteranzahl nach oben, erreicht worden. Allerdings wächst der Bedarf an Rechenleistung für das Training schneller als die Parameterzahl, was die Kosten in die Höhe treibt und die Prozesse als wenig nachhaltig erscheinen lässt. Sparsification dürfte für die nächste Generation von Modellen wichtig sein, da der "Spärlichkeits"-Ansatz spezialisierte Teilmodelle in die Lage versetzt, effizienter zu arbeiten. Hier gibt es nicht nur einen Ansatz, sondern mehrere wie Coarse-grained Sparsity oder Selectivity, die im Machine Learning helfen werden, die vorhandene Rechenleistung effizienter zu nutzen.

KI-Agent Lumi gibt aus dem Sparse-Modell heraus Auskunft über seinen Aufenthaltsort und die Supercomputing 2022

(Bild: Aleph Alpha)

Auf technischer Seite geht es bei der Forschungszusammenarbeit weiterhin um das Vortrainieren, Feintunen und die Inferenz fortgeschrittener Sprach- und Computervisionsmodelle im Milliarden-Parameter-Bereich. Der britische Hersteller von Chips für Machine-Learning-Prozesse bietet eine Technik, die durch Nebenläufigkeit besonders hohe Verarbeitungsgeschwindigkeiten erzielt und daher für KI-Prozesse besonders geeignet ist. Branchenübergreifend kommt die Technik bereits im Finanzwesen, in der Physik und der Pharmokologie sowie in Wettermodellen zum Einsatz. Aleph Alphas Hauptplattform für das Trainieren von Modellen stammt zurzeit weiterhin von HPE und Nvidia.

Im September hatte Aleph Alpha sein Hochleistungsrechenzentrum alphaONE eröffnet, der CTO und Mitgründer von Graphcore Simon Knowles war bei der Eröffnung vor Ort. Informationen zur Supercomputing Conference 2022 lassen sich dem Programm auf der Veranstaltungswebsite entnehmen. Dort sind auch die Proceedings der vergangenen Ausgaben zu finden.

(sih)