DeepSeek: Blick hinter die Kulissen des Reasoning-Modells R1
Das neue Modell DeepSeek R1 beeindruckt mit guter Leistung bei niedrigen Hardwarekosten. Wie arbeitet das Modell und was bedeutet es für die KI-Entwicklung?
(Bild: Erstellt mit Midjourney durch iX-Redaktion)
- Dr. Christian Winkler
OpenAI ist der etablierte Marktführer für Sprachmodelle, die ganze (Gen)AI-Welt hängt von Nvidia ab, weil sich nur mit Unmengen dieser sehr teuren GPUs noch bessere Modelle trainieren lassen. Meta plant ein Rechenzentrum in der halben Größe von Manhattan, will eine Million GPUs kaufen und braucht dafür (mehrere) Gigawatt an Leistung – in der Größenordnung eines Atomkraftwerks.
Und da kommt plötzlich ein nicht extern finanziertes Startup aus China und präsentiert ein Modell, das es mit den größten OpenAI-Modellen aufnehmen kann und sie teilweise sogar schlägt. Der dafür notwendige Trainingsaufwand betrug "nur" 2,9 Millionen GPU-Stunden. Eine GPU-Stunde kostet auf einer H200 etwa zwei Dollar, also konnte mit weniger als sechs Millionen Dollar ein solches Modell trainiert werden. Angeblich ist das Jahresgehalt jedes der 13 Meta-Manager höher, die für Lllama zuständig sind.
Große Tech-Unternehmen bilden Krisenstäbe, weil DeepSeek sein Modell veröffentlicht und für einen Bruchteil der Kosten von GPT-4o{1,2,3} als API zur Verfügung stellt. Der Nvidia-Aktienkurs fällt um 20 Prozent und die Marktkapitalisierung um 600 Milliarden Dollar, was Nvidia vom Spitzenplatz der wertvollsten Unternehmen auf Platz drei zurückwirft. Wie können solche Verwerfungen innerhalb einer Woche passieren? DeepSeek kannte bisher praktisch niemand. Wie konnte die ganze Branche so kalt erwischt werden?
Das war die Leseprobe unseres heise-Plus-Artikels "DeepSeek: Blick hinter die Kulissen des Reasoning-Modells R1". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.