DeepSeek: Blick hinter die Kulissen des Reasoning-Modells R1

Das neue Modell DeepSeek R1 beeindruckt mit guter Leistung bei niedrigen Hardwarekosten. Wie arbeitet das Modell und was bedeutet es für die KI-Entwicklung?

Artikel verschenken
vorlesen Druckansicht 108 Kommentare lesen
KI-generiertes Bild zeigt Chatbot mit China-Flagge

(Bild: Erstellt mit Midjourney durch iX-Redaktion)

Lesezeit: 16 Min.
Von
  • Dr. Christian Winkler
Inhaltsverzeichnis
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Prof. Christian Winkler
Prof. Christian Winkler

ist Data Scientist und Machine Learning Architect. Er promovierte in theoretischer Physik und arbeitet seit 20 Jahren im Bereich großer Datenmengen und Künstliche Intelligenz, insbesondere mit Fokus auf skalierbaren Systemen und intelligenten Algorithmen zur Massentextverarbeitung. Seit 2022 ist er Professor an der TH Nürnberg und konzentriert seine Forschung auf die Optimierung von User Experience mithilfe moderner Verfahren. Er ist Gründer der datanizing GmbH, Referent auf Konferenzen und Autor von Artikeln zu Machine Learning und Text Analytics.

OpenAI ist der etablierte Marktführer für Sprachmodelle, die ganze (Gen)AI-Welt hängt von Nvidia ab, weil sich nur mit Unmengen dieser sehr teuren GPUs noch bessere Modelle trainieren lassen. Meta plant ein Rechenzentrum in der halben Größe von Manhattan, will eine Million GPUs kaufen und braucht dafür (mehrere) Gigawatt an Leistung – in der Größenordnung eines Atomkraftwerks.

Und da kommt plötzlich ein nicht extern finanziertes Startup aus China und präsentiert ein Modell, das es mit den größten OpenAI-Modellen aufnehmen kann und sie teilweise sogar schlägt. Der dafür notwendige Trainingsaufwand betrug "nur" 2,9 Millionen GPU-Stunden. Eine GPU-Stunde kostet auf einer H200 etwa zwei Dollar, also konnte mit weniger als sechs Millionen Dollar ein solches Modell trainiert werden. Angeblich ist das Jahresgehalt jedes der 13 Meta-Manager höher, die für Lllama zuständig sind.

Große Tech-Unternehmen bilden Krisenstäbe, weil DeepSeek sein Modell veröffentlicht und für einen Bruchteil der Kosten von GPT-4o{1,2,3} als API zur Verfügung stellt. Der Nvidia-Aktienkurs fällt um 20 Prozent und die Marktkapitalisierung um 600 Milliarden Dollar, was Nvidia vom Spitzenplatz der wertvollsten Unternehmen auf Platz drei zurückwirft. Wie können solche Verwerfungen innerhalb einer Woche passieren? DeepSeek kannte bisher praktisch niemand. Wie konnte die ganze Branche so kalt erwischt werden?

Das war die Leseprobe unseres heise-Plus-Artikels "DeepSeek: Blick hinter die Kulissen des Reasoning-Modells R1". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.