KI-Update kompakt: Softbank, DeepSeek, OpenAI, Jenga-KI
Das "KI-Update" liefert werktäglich eine Zusammenfassung der wichtigsten KI-Entwicklungen.
- Isabel Grünewald
- The Decoder
Softbank-CEO kooperiert mit OpenAI und glaubt an baldige AGI
Der japanische Technologiekonzern Softbank und OpenAI haben eine weitreichende Zusammenarbeit angekündigt. Gemeinsam entwickeln sie "Cristal Intelligence" - ein KI-Arbeitsumgebung für Unternehmen. Softbank investiert dafür jährlich drei Milliarden US-Dollar.
Die Kooperation umfasst auch die Bereitstellung von ChatGPT Enterprise für Softbank-Mitarbeiter. Zunächst sollen die Softbank-Töchter ARM und Softbank Corp. in Japan die neue KI-Arbeitsumgebung einführen.
Für die Zusammenarbeit gründen beide Unternehmen das Joint Venture "SB OpenAI Japan".
Bei der Vorstellung der Partnerschaft soll Softbank-CEO Masayoshi Son gesagt haben, dass er eine AGI viel früher erwartet, als er bisher angenommen hatte. Bisher hatte er sie allerdings auch schon in zwei, drei Jahren erwartet. Dahinter steckt sicherlich auch ein verändertes Verständnis dafür, was eine AGI überhaupt ist.
OpenAI CEO Sam Altman hatte im Dezember in einem Interview gesagt, AGI werde viel weniger bedeutend sein, als die meisten Menschen denken.
DeepSeek soll V3 mit viel stärkerer Nvidia-Hardware entwickelt haben
Das chinesische KI-Unternehmen DeepSeek hat für sein neues Sprachmodell V3 offenbar deutlich mehr Ressourcen eingesetzt als bisher bekannt. Laut Semianalysis verfügt DeepSeek über rund 60.000 Nvidia-Beschleuniger – darunter 10.000 A100-Chips der Ampere-Generation sowie verschiedene Hopper-Modelle wie H100, H800 und H20.
Die offiziell angegebenen Trainingskosten von 5,6 Millionen US-Dollar für DeepSeek V3 stellen dabei nur einen Bruchteil der tatsächlichen Investitionen dar. Diese Summe bezieht sich lediglich auf das finale Training mit 2.048 H800-Beschleunigern. Allein die Server-Hardware für die 60.000 GPUs kostet nach Berechnungen von Semianalysis etwa 1,6 Milliarden US-Dollar.
Bemerkenswert ist, dass DeepSeek trotz US-Sanktionen Zugang zu 10.000 H100-Beschleunigern über den Graumarkt erhalten haben soll. Diese High-End-Chips unterliegen eigentlich strengen Exportbeschränkungen nach China.
Zum noch leistungsfähigeren R1-Modell macht DeepSeek keine Hardwareangaben. Gerüchten zufolge könnten hier auch KI-Beschleuniger des chinesischen Herstellers Huawei zum Einsatz kommen.
OpenAI-Chef denkt wieder über Open Source nach und räumt schwindenden Vorsprung ein
Bei einer Frage-Antwort-Runde auf Reddit räumte OpenAI-CEO Sam Altman Fehler in der Open-Source-Strategie seines Unternehmens ein. Altman schreibt, dass OpenAI seiner Ansicht nach bei Open Source "auf der falschen Seite der Geschichte" stehe. Intern werde bereits über einen neuen Ansatz diskutiert.
Altman dämpfte bei Reddit auch die Erwartungen an die künftige Marktposition von OpenAI. Der Vorsprung werde in Zukunft geringer ausfallen als in den vergangenen Jahren.
Für GPT-5 gebe es noch keinen Zeitplan, die GPT-4o-Serie werde aber mit Updates fortgesetzt. Die im letzten Jahr angekündigte native GPT-4o-Bildgenerierung ist laut Produktchef Kevin Weil noch Monate entfernt.
OpenAI plant außerdem mehr Transparenz bei der Darstellung von Denkprozessen seiner Reasoning-Modelle. Dabei müsse man aber einen Kompromiss zwischen Nutzerinteressen und dem Schutz vor Wettbewerbern finden.
Mistral veröffentlicht LLM Small 3 unter Apache-Lizenz und kündigt Reasoning-Modell an
Das französische KI-Startup Mistral AI hat mit Small 3 ein neues Sprachmodell mit 24 Milliarden Parametern veröffentlicht, das in Benchmarks ähnliche Leistungen wie größere Modelle von Meta, Qwen und OpenAI erreicht. Das Modell wurde für eine geringe Latenz optimiert und eignet sich damit besonders für den lokalen Einsatz.
Mit Mistral Small 3 wechselt Mistral außerdem von der proprietären MRL-Lizenz zur freien Apache-2.0-Lizenz. Damit sind die Modelle auch für kommerzielle Anwendungen frei nutzbar, modifizierbar und weiterverteilbar. Für spezielle Anforderungen will das Unternehmen weiterhin kommerzielle Modelle anbieten.
Für die kommenden Wochen kündigte Mistral außerdem die Veröffentlichung weiterer kleiner und großer Modelle mit verbesserten Reasoning-Fähigkeiten an.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmung wird hier ein externer Podcast (Podigee GmbH) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
Erratische Gedankensprünge könnten die Leistung von Reasoning-Modellen wie o1 beeinflussen
Eine neue Studie von Tencent zeigt, dass Reasoning Modelle wie OpenAIs o1 oder DeepSeeks R1 dazu neigen können, vielversprechende Lösungsansätze zu früh aufzugeben und stattdessen häufig zwischen verschiedenen Strategien hin- und herzuspringen. Die Forscher nennen das " Underthinking".
Die Forscher stellten fest, dass die Modelle bei falschen Antworten deutlich häufiger zwischen Denkansätzen wechselten als bei richtigen Lösungen. Je schwieriger die Aufgaben waren, desto ausgeprägter war dieser Effekt. 70 Prozent der falschen Antworten enthielten aber mindestens einen richtigen Gedankengang, der aber nicht zu Ende gedacht wurde.
Das Team entwickelt daher eine Methode, die Strategiewechsel während des Reasoning-Prozesses "bestraft". In Experimenten verbesserte die Methode das Underthinking nachweisbar.
KI-Roboter schlägt Jenga-Blöcke zu 100 Prozent aus Turm
Wissenschaftler der University of California Berkeley haben einen Roboter so trainiert, dass er selbstständig einzelne Jenga-Blöcke mit einer Peitsche aus einem Turm herausschlagen kann, ohne dass der Turm instabil wird und zusammenfällt. Dazu kombinierten sie beim Training der KI des Roboters Methoden des Reinforcement Learnings mit Korrekturen durch einen Menschen.
Am Ende des Trainings schaffte es der Roboter zu 100 Prozent, mit einer Peitsche einzelne Blöcke aus einem Jenga-Turm zu schlagen, ohne dass der Turm einstürzte. Laut den Forschern hat der Roboter gegenüber einem menschlichen Spieler einen entscheidenden Vorteil: Er hat keine Muskeln, die ermüden könnten und führt daher jeden Schlag mit der gleichen Präzision durch.
(igr)