LLM-Beschleunigung: Apple kooperiert mit Nvidia

Mit der Software ReDrafter soll die Ausführung großer Sprachmodelle auf Nvidia-GPUs signifikant flotter werden. Das Werkzeug ist quelloffen.

vorlesen Druckansicht 17 Kommentare lesen
Logo und Icon von Apple Intelligence

Logo und Icon von Apple Intelligence: Apple hat in Sachen KI einigen Nachholbedarf.

(Bild: Apple)

Lesezeit: 2 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Apple hat ein Projekt in Zusammenarbeit mit Nvidia gestartet, das das sogenannte Inferencing in großen KI-Sprachmodellen (Large Language Models, LLMs) beschleunigen soll, mit denen diese unter anderem Verbindung zwischen Token ziehen. Beim Inferencing führen KI-Beschleuniger bereits trainierte KI-Algorithmen aus.

Dazu hat der Konzern bereits im November eine quelloffene Software namens Recurrent Drafter, kurz ReDrafter, in einem Paper samt Code auf GitHub publiziert. Nivida selbst setzt ReDrafter bereits in seinem hauseigenen TensorRT-LLM-Framework ein, wie der KI-Riese in einem Blog-Posting mitteilte. Es handele sich um eine "neuartige, spekulative Decoding-Technik", die Entwicklern helfe, die Workload-Performance auf Nvidia-GPU-Chips "signifikant zu beschleunigen".

Laut Apple gelingt es mit ReDrafter und TensorRT-LLM, die Token-Generierung pro Sekunde um das 2,7-Fache zu beschleunigen (beim sogenannten Greedy Decoding). Überprüft wurde dies bei einem Produktionsmodell mit mehreren zehn Milliarden Parametern, so Apple. "Die Benchmark-Ergebnisse zeigen, dass diese Technologie die Latenz, die die Nutzer wahrnehmen, signifikant reduzieren könnte." Gleichzeitig spare man Performance und Strom.

Videos by heise

Das spekulative Decoding ist laut Nvidia ein Verfahren, bei der das LLM-Inferencing durch die parallele Erzeugung mehrerer Token beschleunigt wird. "Dabei werden kleinere 'Entwurfs'-Module verwendet, um künftige Token vorherzusagen, die dann vom Hauptmodell überprüft werden." Bei der Methode sei die Ausgabequalität so gut wie zuvor, "während die Antwortzeiten, insbesondere bei geringem Traffic, deutlich reduziert werden". Die verfügbaren Ressourcen würden so besser genutzt.

Apple betont, dass man parallel zu seiner Arbeit im Serverbereich mit den Nvidia-GPUs auch an der Beschleunigung der LLM-Inference auf Apple-Silicon-Geräten arbeitet. Der iPhone-Konzern setzt – wie auch die Konkurrenz von Meta oder OpenAI – beim Training seiner eigenen LLMs augenscheinlich stark auf Nvidia-Technik. Von der Arbeit des KI-Teams dürfte somit auch der Rest der Industrie profitieren. Bei Open-Source-Modellen soll es mit ReDrafter gelungen sein, bis zu 3,5 Token pro Generierungsschritt schneller gewesen zu sein. Damit habe man die Leistung früherer spekulativer Decoding-Verfahren übertroffen.

Das TensorRT-LLM-Framework enhält in seiner jüngsten Version sowohl die notwendige Drafting- als auch Validierungslogik in einer einzigen Engine, schreibt Nvidia. Das minimiere Overhead. Die Zusammenarbeit mit Apple habe TensorRT-LLM "mächtiger und flexibler" gemacht.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(bsc)