DeepSeek-R1: Die Technik hinter dem Hype

DeepSeek-R1 überraschte vor allem durch seinen enormen Preisvorteil gegenüber dem Konkurrenten o1 von OpenAI – bei ähnlicher Performance in Benchmarks.

Artikel verschenken
vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 22 Min.
Von
  • Danny Gerst
Inhaltsverzeichnis

Das Open-Source-lizenzierte Modell DeepSeek-R1 sendet einen seismischen Schock durch die KI-Landschaft. Mit seiner Leistung fordert es Topmodelle wie o1 von OpenAI heraus – zu deutlich geringeren Kosten, was DeepSeek durch eine hocheffiziente Trainingsmethode und Modellarchitektur erreicht. Der chinesische Entwickler zeigt mit R1, dass es keine Rechenzentren mit angeschlossenen Atomkraftwerken braucht, um Spitzenmodelle zu trainieren.

Auch außerhalb der KI-Szene erzeugte R1 so große mediale Aufmerksamkeit, dass die App des Modells ChatGPT in den Ranglisten der App Stores von Google und Apple überholte. Zeitgleich gingen einige Techfirmen an den Börsen auf Talfahrt: Nvidia etwa verlor allein an einem Tag rund 17 Prozent seiner Marktkapitalisierung. Allerdings kann hier auch die Ankündigung von Zöllen auf die in Taiwan gefertigten Halbleiter von TSMC eine Rolle gespielt haben. Unabhängig von diesen Turbulenzen wirft DeepSeek-R1 die Frage auf, ob sich das Milliardeninvestment in die KI-Infrastruktur überhaupt rechnet, wenn sich Modelle mit der "Denkfähigkeit" von o1 für kleine Millionenbeträge trainieren lassen.

iX-tract
  • DeepSeek-R1 kombiniert verschiedene bekannte Techniken und Algorithmen zu einem innovativen Ansatz.
  • Mit 671 Milliarden Parametern ist das Modell ein echtes Schwergewicht. Ein verbessertes Loadbalancing und die Mixture-of-Experts-Methode verschlanken die Inferenz.
  • In einem mehrstufigen Prozess nutzt DeepSeek das bestehende V3-Modell, um mit R1-Zero einen Sparringspartner fĂĽr das Training der finalen Variante R1 zu erstellen.
  • Der Innovationsgeist von DeepSeek und der vergleichbar transparente Ansatz ebnen den Weg fĂĽr weitere Neuerungen – sowohl von den Tech-Riesen als auch von ihren kleineren Konkurrenten.

Es wird jedoch oft übersehen, dass dieser technologische Sprung nicht aus dem Nichts kam, sondern das Ergebnis zahlreicher kleiner Fortschritte ist. Ähnlich wie ChatGPT basiert DeepSeek-R1 auf einer Kombination bestehender Entwicklungen und eigener Forschung, die die Entwickler geschickt arrangiert und optimiert haben. Um die Leistung hinter R1 zu verstehen, lohnt sich ein Blick auf das Unternehmen DeepSeek und die Historie des Modells.

Das war die Leseprobe unseres heise-Plus-Artikels "DeepSeek-R1: Die Technik hinter dem Hype". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.