Deepseek aus China setzt das Silicon Valley unter Druck
Panikmodus bei KI-Unternehmen und an der Börse: Die chinesischen KI-Modelle von Deepseek sind kostengünstig und leistungsstark.
Notfall im Rechenzentrum
(Bild: vchal/Shutterstock.com)
Meta soll ein Krisenteam ins Leben gerufen haben. Nvidias Börsenkurs geht nach unten. OpenAI steht unter Druck. Deepseek aus China bietet KI-Modelle und einen Chatbot an, der es mindestens mit den gängigen Modellen aus dem Silicon Valley aufnehmen können soll. Dabei sei das Training jedoch deutlich schneller und billiger gewesen. Auch der Zugang zu dem Modell ist für Kunden kostengünstiger.
Eigentlich sind die Modelle bereits vor einigen Wochen veröffentlicht worden, doch Deepseek ist plötzlich die meist geladene App im App-Store und bekommt viel Beachtung. Das könnte unter anderem daran liegen, dass Großinvestor Marc Andreessen aus dem Silicon Valley den Dienst erst jetzt bei X als einen der "beeindruckendsten Durchbrüche", die er jemals gesehen hat, bezeichnet.
Deepseek hat die Modelle R1 und V3 veröffentlicht. Schon V3 soll die Leistung von GPT-4o und Anthropics Claude 3.5 teilweise in Benchmarks übertreffen. Und das, obwohl die Entwicklung nur einen Bruchteil gekostet haben soll. Konkret sollen es 5,6 Millionen US-Dollar reine Trainingskosten gewesen sein, bei 2,78 Millionen GPU-Stunden, wie sie auf der eigenen Webseite schreiben. Metas Llama mit rund 400 Milliarden Parametern liegt bei etwa elfmal so vielen GPU-Stunden. Deepseek R1 steht für ein Reasoning-Modell, das mit OpenAIs o1 mithalten können soll. Beide Modelle sind unter MIT-Lizenz frei verfügbar.
Kostengünstige Entwicklung und Nutzung der Deepseek-Modelle
Dennoch ist nicht ganz klar, wie der Anbieter die Modelle so kosteneffizient entwickeln konnte. Ein Problem dabei: Eigentlich sollte Deepseek wegen der US-Handelsbeschränkungen keinen Zugang zu ausreichend leistungsfähigen Chips für das KI-Training haben. Es gibt jedoch Berichte, nach denen der Gründer schon vor Jahren ausreichend Nvidia A100 GPUs für sein Hobby gekauft habe, die er jetzt nutzen kann. Die Financial Times hat ein kleines Porträt über Liang Wenfeng geschrieben. Er ist demnach ehemaliger Hedgefonds-Manager mit einem Faible für KI. Deepseek soll er im Mai 2023 gegründet haben.
Allerdings wird das Unternehmen laut dem Artikel komplett quersubventioniert. Wenfeng soll gesagt haben, dass er keine wirtschaftlichen Interessen mit seinen KI-Modellen verfolge, weil Grundlagenforschung nur eine niedrige Rendite habe. Stattdessen wolle er offenbar einen Impact auf die chinesische Wirtschaft haben.
Videos by heise
Den hat er aber nicht nur auf diese. Vor allem in den USA scheint Deepseek ein kleines Beben auszulösen. Die Börsenwerte aller Unternehmen, die mit KI verknüpft sind, geraten ins Wanken. Wenn die Modelle wirklich so leistungsfähig sind und weniger Leistung brauchen, bedarf es vielleicht gar keiner 500-Milliarden-US-Dollar-Rechenzentren – wie das Project Stargate. Die Open-Source-Strategie erlaubt es zudem, die Modelle nachzubauen.
Mehrere KI-Experten haben sich bereits geäußert. Yann LeCun von Meta schrieb bei X, Deepseek V3 sei "exzellent". Microsoft-CEO Satya Nadella warnte beim Weltwirtschaftsforum in Davos vor der chinesischen Entwicklung, man müsse sie "sehr, sehr ernst nehmen".
Schon im vergangenen Jahr, als Deepseek die ersten Versionen der Modelle veröffentlichte, schrieb auch Jim Fan von Nvidia bei X, Open-Source-Modelle könnten einen enormen Druck auf kommerzielle Unternehmen ausüben. Und: "Ressourcenbeschränkungen sind etwas Schönes. Der Überlebensinstinkt in einem gnadenlosen KI-Wettbewerbsumfeld ist ein erstklassiger Antrieb für Durchbrüche."
Der Perplexity-Chef Aravind Srinivas vermutet: "Not macht erfinderisch. Weil sie Workarounds finden mussten, haben sie am Ende etwas tatsächlich viel Effizienteres gebaut."
Zweifel an Entwicklung und Fähigkeiten
Aber: Es gibt auch Vermutungen, dass Deepseek nicht ganz die Wahrheit erzählt, wenn es um die Entwicklung der Modelle geht. Laut CNBC sagte Chetan Puttagunt vom Wagniskapitalgeber Benchmark bereits, Deepseek habe die sogenannte Model-Destillation nutzen können. Dabei wird das Wissen eines großen Modells in ein kleines Modell überführt. Daran arbeiten auch andere KI-Unternehmen wie Meta. Der Chatbot von Deepseek soll häufiger mal behaupten, er selbst sei ChatGPT, was dafür spricht, dass er über diesen Chatbot trainiert wurde.
Problematisch ist, dass die Deepseek-Modelle auf manche Fragen im Sinne der chinesischen Regierung antworten. Es werden beispielsweise Ereignisse auf dem Tian’anmen-Platz verschwiegen. Dort wurden 1989 Proteste einer Demokratiebewegung blutig beendet. Mit üblichen KI-Tricks bekommt man das Modell dazu, über das Massaker zu schreiben. Wer nicht weiß, dass etwas verschwiegen wird, kann aber nur schwerlich Tricks anwenden, weil er gar nicht weiß, dass etwas fehlt.
(emw)