Wie das KI-Modell DeepSeek-R1 arbeitet: Günstiges Reasoning für alle
Mit DeepSeek-R1 ist ein leistungsfähiges Reasoning-Sprachmodell aus China auf dem Markt erschienen. Wir haben uns angesehen, wie es arbeitet.
- Dr. Christian Winkler
Bislang war gesetzt, dass die ganze Welt der generativen KI (GenAI) von Nvidia abhängt – man braucht Unmengen sehr teurer Nvidia-GPUs, will man bessere Modelle trainieren. Meta etwa will eine Million GPUs kaufen, plant dafür ein Rechenzentrum in der halben Größe von Manhattan und benötigt dafür mehrere Gigawatt an Leistung – in der Größenordnung eines Atomkraftwerks.
Und da kommt plötzlich ein Start-up aus China und präsentiert mit DeepSeek-R1 ein Modell, das es mit den größten Modellen des KI-Marktführers OpenAI aufnehmen kann und sie teilweise sogar schlägt. Zudem ist das Modell als Open Source veröffentlicht.
- DeepSeek-R1 ist ein Reasoning-Sprachmodell, dessen "Gedankengängen" beim Lösen einer Aufgabe man zusehen kann. Seine Gewichte sind als Open Source veröffentlicht.
- Um DeepSeek-R1 auf eigener Hardware zu nutzen, ist sehr viel GPU-RAM erforderlich. Kleinere, quantisierte Reasoning-Modelle laufen auf schwächerer Hardware, bringen allerdings schlechtere Ergebnisse.
- DeepSeek bietet R1 derzeit als kostenlosen Service an.
- DeepSeek hat zuvor bereits diverse andere leistungsfähige LLMs veröffentlicht. Fachleute sind daher von DeepSeek-R1 weniger überrascht als die Börse, die bereits das Ende der US-Überlegenheit beim Thema GenAI antizipiert.
Große Techunternehmen bilden Krisenstäbe, weil DeepSeek sein Modell veröffentlicht und für einen Bruchteil der Kosten von OpenAIs GPT-4o, o1 und o3 als API zur Verfügung stellt. Der Nvidia-Aktienkurs fällt um 20 Prozent, die Marktkapitalisierung sinkt um 600 Milliarden Dollar. Vorher kannte kaum jemand DeepSeek. Wie konnte die ganze Branche so kalt erwischt werden?
Das war die Leseprobe unseres heise-Plus-Artikels "Wie das KI-Modell DeepSeek-R1 arbeitet: Günstiges Reasoning für alle". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.