FAQ: KI-Hardware für Notebooks und PCs
Spezielle KI-Chips, Grafikhardware und spezialisierte Rechenwerke in CPUs sollen KI-Anwendungen beschleunigen. Was davon wie viel bringt variiert stark.
(Bild: Shutterstock/Alexander Supertramp)
AMD, Apple, Intel, Nvidia und Qualcomm werben mit speziellen KI-Funktionen ihrer Chips. Apple und Microsoft wiederum preisen die KI-Funktionen ihrer Betriebssysteme an, sprich Apple Intelligence und Copilot+. Bei Künstlicher Intelligenz geht vieles durcheinander, wir dröseln es auf.
Was bringen KI-Rechenwerke?
Was genau können KI-Beschleuniger besser als normale CPU-Kerne?
Viele KI-Algorithmen benötigen sehr hohe Rechenleistung, kommen aber größtenteils mit zwei sehr speziellen Funktionen aus: der Multiplikation großer Matrizen und einer anschließenden Addition, genannt Matrix Multiply Accumulate (MMA). Eine gezielt für diese Rechenschritte optimierte Baugruppe verarbeitet die Daten viel schneller und gleichzeitig energetisch effizienter als ein Allzweck-Prozessorkern. Das klappt in der Praxis jedoch nur, wenn mehrere Bedingungen erfüllt sind.
Kompatibilität von KI-Apps und -Beschleunigern
Kann jede KI-Software jeden KI-Beschleuniger nutzen?
Nein, und hier liegt der Hase im Pfeffer: Um ein bestimmtes KI-Rechenwerk nutzen zu können, muss eine KI-App gezielt dafür programmiert sein. Denn dummerweise sind die unterschiedlichen KI-Rechenwerke in Chips von AMD, Apple, Intel, Nvidia und Qualcomm nicht zueinander binärkompatibel. Schlimmer noch: Manche Chips enthalten zwei oder drei verschiedene KI-Rechenwerke. Sie sind zwar über Treiber ins jeweilige Betriebssystem eingebunden, und es gibt dafür auch standardisierte Programmierschnittstellen (APIs) sowie dazu kompatible KI-Frameworks. Doch manche KI-App kooperiert nur mit bestimmten KI-Einheiten oder bestimmten APIs, andere sind für sie nutzlos.
KI-Programmierschnittstellen
Wie bekomme ich heraus, welche KI-Software meine Hardware optimal ausreizt?
Das ist schwierig. Viele Softwarefirmen verraten nicht einmal, welche Softwareschnittstelle (Application Programming Interface, API) ihre KI-App überhaupt nutzt. Und selbst mit dieser Information ist es schwer einzuschätzen, wie gut die App auf einem bestimmten Rechner laufen wird. Denn je nach Kombination aus KI-Framework, KI-API, Treibern und Hardware unterscheidet sich die Performance gewaltig.
KI-Apps verwenden typischerweise sogenannte KI-Frameworks wie TensorFlow, Caffe, PyTorch oder Keras. Diese wiederum nutzen je nach den vorhandenen KI-Rechenwerken, Treibern und Betriebssystemen verschiedene Programmierschnittstellen wie Microsoft DirectML (Windows ML), Apple CoreML, Nvidia TensorRT, AMD AI Engine, Intel OpenVINO, Qualcomm AI Engine Direct oder auch die generische Schnittstelle Vulkan.
Microsoft wirbt dafür, dass Programmierer unter Windows DirectML nutzen, weil sich darüber KI-Einheiten unterschiedlicher Chipfirmen ansteuern lassen. Doch Benchmarks zeigen, dass DirectML oft deutlich weniger Rechenleistung herausholt als mit dem vom jeweiligen Hardwarehersteller selbst gepflegten API. Das gilt insbesondere für Nvidia TensorRT und Intels OpenVINO.
Videos by heise
Was sind Tops?
Immer wieder stoße ich auf die Maßeinheit "Tops". Ich habe schon begriffen, dass damit Tera-Operationen pro Sekunde gemeint sind. Aber was bedeutet das?
Für den KI-Siegeszug war die Erkenntnis wichtig, dass viele KI-Algorithmen auch dann gute Resultate liefern, wenn sie mit stark vereinfachten Werten arbeiten. Daher rechnen viele KI-Apps mit sogenannten quantisierten Daten. Beispielsweise verwenden sie anstelle von Gleitkommawerten mit je 32 Bit (32-Bit Floating Point, FP32) nur FP16 oder gleich ganze Zahlen (Integer) mit 8, 6 oder gar nur 4 Bit. Ein solcher Int8-Wert belegt 1 Byte, also nur ein Viertel dessen, was ein FP32-Wert braucht. Und moderne CPU-Rechenwerke wie die Advanced Vector Extensions (AVX) verarbeiten pro Taktzyklus von den "schmalen" Daten viel mehr. AVX-VNNI hantiert beispielsweise mit 256-Bit-Vektoren und verrechnet anstelle von acht FP32-Werten alternativ auch 32 Int8-Zahlen in einem Rutsch. Von den kleineren Daten passen auch mehr ins RAM und in die Caches.
Für die maximale Anzahl an Datenwerten, die ein Rechenwerk pro Sekunde verarbeiten kann, hat sich die Maßeinheit "Operations per Second" (ops, Rechenschritte pro Sekunde) eingebürgert. Bei KI-Rechenwerken ist damit üblicherweise die Anzahl der bei Matrixmultiplikationen pro Sekunde verarbeiteten Int8-Werte gemeint, die längst in die Billionen geht: Tera-ops, kurz Tops. Viele KI-Rechenwerke – aber längst nicht alle – verarbeiten auch FP16-Werte, jedoch nur halb so schnell wie Int8; typischerweise nennen Hersteller dann den höheren Wert. Geht es um Gleitkommazahlen (Floating Point), schreibt man eher Flops: Floating Point Operations per Second. Ohne konkrete Angabe der Datenformate, die das jeweilige KI-Rechenwerk verarbeiten kann, ermöglichen Tops-Werte nur sehr grobe Leistungsvergleiche.
Welche KI-Beschleuniger gibt es?
Welche Typen von KI-Beschleunigern stecken in aktuellen Windows- und macOS-Rechnern?
Bei den meisten aktuellen x86- und ARM-Prozessoren sind bereits die gewöhnlichen CPU-Kerne für KI-Algorithmen optimiert und daher deutlich schneller als ihre Vorgänger. Denn AMD, Intel und auch ARM haben ihre jeweiligen Vektor-Recheneinheiten (Advanced Vector Extensions, AVX, und Scalable Vector Extensions, SVE) überarbeitet, sodass sie nun auch KI-Datenformate wie BF16, FP16 oder Int8 verarbeiten. Im Idealfall sind sie bei gleicher Taktfrequenz um den Faktor zwei bis acht schneller als ältere Prozessoren. Die 16 CPU-Kerne eines AMD Ryzen 9 9950X leisten beispielsweise zusammen rund 10 Tops bei Int8.
Die meisten aktuellen Prozessoren enthalten zudem integrierte Grafikprozessoren (iGPU, IGP). Die sind zwar deutlich schwächer als die GPU einer teuren Grafikkarte, enthalten aber ähnliche Rechenwerke, die außer 3D-Berechnungen und Raytracing mittlerweile auch KI-Datenformate kennen. Die IGP des Mobilprozessors Intel Core Ultra 9 288V liefert beispielsweise 67 Tops. Eine 300 Euro teure Nvidia GeForce RTX 4060 liefert hingegen satte 242 Tops.
Zusätzlich enthalten alle aktuellen Mobilprozessoren von AMD, Apple, Intel und Qualcomm separate KI-Rechenwerke, sogenannte Neural Processing Units (NPUs). Die meisten verarbeiten nur Int8- und FP16-Werte und sind dabei oft auch schwächer als die ebenfalls eingebaute GPU: Intels NPU im Core Ultra 100 liegt bei 13 Tops, im Core Ultra 200V immerhin bei 45 Tops. Für das Logo "Copilot+" verlangt Microsoft eine NPU mit mindestens 40 Tops. Der Kniff an den NPUs: Sie sind besonders effizient und fressen wenig Strom. Sie sind vor allem für kontinuierlich laufende KI-Anwendungen gedacht, die den Notebook-Akku nicht schnell leeren sollen: Spracherkennung, Optimierung von Audio- und Videostreams.
Wie viel RAM braucht ein KI-PC?
Braucht ein KI-PC besonders viel Arbeitsspeicher?
Das lässt sich nicht pauschal sagen. Lokal ausgeführte KI-Modelle können deutlich mehr RAM belegen als beispielsweise Office-Apps. Deshalb verlangt Microsoft für Windows-11-Rechner mit dem Logo Copilot+ mindestens 16 GByte RAM. Apple hat vor der Einführung von Apple Intelligence die Mindestbestückung seiner Macs ebenfalls auf 16 GByte erhöht.
Die bisherigen Copilot+-Notebooks sowie auch Apple-Rechner haben Prozessoren mit eingebauten GPUs und NPUs, bei denen sich alle drei Rechenwerke das vorhandene RAM teilen. Soll das KI-Modell auf einer separaten Grafikkarte laufen, muss wiederum deren lokaler Speicher groß genug sein.
KI-Beschleuniger nachrüsten
Kann ich einen KI-Beschleuniger bei meinem Notebook oder PC nachrüsten?
Das klappt sehr gut bei Desktop-PCs mit einem freien PCI-Express-x16-Steckplatz (PCIe x16): Dort können Sie eine moderne Grafikkarte einbauen. Wie stark sie sein darf, hängt außer von Ihrem Geldbeutel auch vom vorhandenen Netzteil ab, denn viele Grafikkarten brauchen zusätzliche Stromkabel, speziell solche mit mehr als 75 Watt Leistungsaufnahme.
Empfehlenswert sind bislang vor allem Nvidia-RTX-Grafikkarten, weil sie nicht nur relativ viel KI-Rechenleistung bereitstellen, sondern weil Nvidia auch Treiber und Programmierschnittstellen gut pflegt. Je nach KI-App kommen aber auch Karten von AMD oder Intel infrage.
Nur sehr wenige Notebooks und Mini-PCs haben Steckfassungen für Grafikkarten. Es gibt aber für unter 100 Euro KI-Beschleuniger in M.2-Bauform wie den Hailo 8L mit immerhin 13 Tops. Welche KI-Apps diesen unter Linux oder Windows jedoch nutzen, konnten wir bisher nicht in Erfahrung bringen.
(ciw)