KI-Update kompakt: Nvidia GTC, OpenAI, Gr00t, SV3D

Das "KI-Update" liefert werktäglich eine Zusammenfassung der wichtigsten KI-Entwicklungen.

In Pocket speichern vorlesen Druckansicht

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 11 Min.
Inhaltsverzeichnis

Auf Nvidias Entwicklerkonferenz GTC gaben sich in den letzten Tagen die Big Player des KI-Business die Klinke in die Hand. Neben Nvidia-CEO Jensen Huang sprachen Vertreter unter anderem von OpenAI, xAI, Google oder auch Pixar, Eleven Labs, Adobe, Siemens und Mercedes darüber, wie Künstliche Intelligenz unseren Arbeitsalltag und unsere Zukunft beeinflussen wird. Sie alle setzten für das KI-Training und die Anwendungen auf Hardware von Nvidia, berichtet mein c’t-Kollege Carsten Spille von der GTC in San José.

Nvidia will laut Firmenchef Huang das nächste Chat-GPT ermöglichen. Damit meint er den nächsten bedeutenden Durchbruch bei KI-Modellen und deren Nutzung. Und er wäre überrascht, wenn das auch noch auf dem Modell Lama 7B basiere. Um diese Aussage besser zu verstehen, hilft es, die Ankündigungen auf der GTC einmal einzuordnen. Grundlage generativer KI sind die sogenannten Large Language Models, die ihren Namen völlig zu Recht tragen. Denn aufgrund ihrer Größe benötigen sie Unmengen an Speicher und ihre Nutzung erfordert die unentwegte Kommunikation aller beteiligten Rechenwerke, seien die nun über einen Chip, über einen Serverschrank oder über ein ganzes Rechenzentrum verteilt.

Ian Buck, Nvidias Leiter für Hyperscale und HPC, unterstrich dazu noch einmal, dass bis zu 60 % des Aufwandes auf genau diese Kommunikation, also Datentransfers, entfielen und nur 40 % aus eigentlicher Rechenzeit bestünden. Diesen Fokus merkt man Nvidias aktuellen Anstrengungen auch an. Ein großer Teil der Geschwindigkeitsgewinne der neuen Chips stammt von ihrer Transformer-Engine, die für einzelne Schritte die Datenmenge gegenüber der Vorgängergeneration halbiert. Zusammen mit schnelleren Verbindungen der Chips untereinander sowie schnellerem und größerem Speicher treibt Nvidia immensen Aufwand, um diese Rechenleistung der Chips auch auf die Straße bringen zu können. In diesem Zusammenhang erklärt sich dann auch der Sinn von Huangs Aussage, die er nämlich auf die Frage hin tätigte, warum Start-ups wie Groq mit ihren spezialisierten Chips bei aktuellen Modellen immer noch schneller als Nvidias Blackwell-Chips sein könnten.

OpenAI COO Brad Lightcap sprach auf der GTC 2024 über die Zukunft generativer KI und die Pläne seines Unternehmens für die nächsten Jahre. Lightcap sieht zwei wichtige Entwicklungen für nützliche KI-Agenten: zum einen die Verbesserung der Denkfähigkeit des Modells und zum anderen die Möglichkeit, Agenten in der realen Welt aktiv werden zu lassen. Er erwartet eine stark beschleunigte Verbesserung im Bereich Reasoning, also der Fähigkeit, logische Schlüsse zu ziehen. Dies würde Modelle ermöglichen, die mehrstufige Probleme lösen können.

Auf die Frage, wo er sein Unternehmen in diesem Jahr oder in drei Jahren sehe, reagierte Lightcap zurückhaltend. Was er jedoch sagen konnte – und ich zitiere: "Wir glauben nicht, dass wir auch nur annähernd die Obergrenze für die Verbesserung der Kernfähigkeiten dieser Modelle erreicht haben. Wir glauben, dass es noch viel Spielraum für zukünftige Skalierungen gibt, und deshalb sind wir sehr gespannt darauf". Skalierung scheint also weiterhin eine wichtige Komponente für OpenAI zu sein – sei es im Bereich der Daten, der Modellgröße oder des Computings. Und der Fokus auf Reasoning – also die Fähigkeit, logische Schlüsse zu ziehen – deckt sich mit den Gerüchten um das Projekt Q* von OpenAI.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Nvidia hat auf der GTC auch das Hardware- und Softwareframework Gr00t (kurz für Generalist Robot 00 Technology) präsentiert. Es soll generative Künstliche Intelligenz einfacher in humanoide Roboter integrieren können. Damit sollen sich lebensechte Roboter entwickeln lassen, verspricht Nvidia. Gr00t umfasst eine Hardware- und Softwarekomponente. Der Computer basiert auf dem Nvidia-Thor-System-on-Chip (SoC). Das SoC umfasst einen Grafikprozessor der Nvidia-Blackwell-Architektur. Mit seiner Transformer-Engine leistet er eine 8-Bit-Gleitkomma-KI-Leistung von 800 TFlops. Damit sollen sich multimodale, generative KI-Modelle ausführen lassen. Hinzu kommt ein integrierter Sicherheitsprozessor, ein Hochleistungs-CPU-Cluster sowie 100-Gbit-Ethernet, was den Design- und Integrationsaufwand vereinfache. Darüber hinaus hat Nvidias Robotik-Plattform Isaac, von der Gr00t ein Teil ist, einige Upgrades erhalten. Darunter befinden sich etwa KI-Grundmodelle sowie Simulations-Tools und Werkzeuge zur KI-Workflow-Infrastruktur. Dadurch kann Gr00t vielfältig eingesetzt und an verschiedene Roboter in unterschiedlichen Umgebungen angepasst werden.

Die Tools lassen unter anderem auch ein Training durch verstärkendes Lernen zu. Damit kann die Roboter-Leistung kontinuierlich verbessert werden. Mit enthalten ist auch Osmo, ein Dienst, der etwa die Datengenerierung und das Modelltraining koordiniert. Für Roboterarme will Nvidia eine eigene Sammlung von vortrainierten Robotikmodellen, Bibliotheken sowie Referenz-Hardware herausbringen, die in Isaac Manipulator und Isaac Perceptor zusammengefasst werden sollen. Isaac Manipulator enthält etwa eine Sammlung von Basis-KI-Modellen sowie GPU-beschleunigten Bibliotheken. Isaac Perceptor integriert dagegen Multikamera- und 3D-Surround-Sound-Fähigkeiten in mobile, autonom agierende Roboter. Isaac Manipulator und Isaac Perceptor sollen ab dem zweiten Quartal zur Verfügung stehen, heißt es von Nvidia.

40 Milliarden US-Dollar möchte Saudi-Arabien in Künstliche Intelligenz investieren. Das berichtet die New York Times unter Berufung auf drei nicht namentlich genannte Eingeweihte. Umgesetzt werden soll die Investition gemeinsam mit der Wagniskapitalfirma Andreessen Horowitz und mehreren US-Banken. Dieser Batzen Geld würde die Monarchie zum größten Investor in Künstliche Intelligenz machen.

Das Geld soll in unterschiedliche Bereiche der KI-Kette fließen; die Rede ist laut Bericht von eigenen KI-Firmen, Investitionen in andere Start-ups, in Chip-Hersteller sowie in Datenzentren. Der Geldhahn könnte schon in der zweiten Hälfte des Jahres geöffnet werden. In Erwägung sei zudem die Beteiligung anderer Wagniskapitalgeber. Verhandelt werde überdies über die Eröffnung eines Andreessen-Horowitz-Büros in Riad, der Hauptstadt und größten Stadt Saudi-Arabiens.

Der Golfstaat ist mit Erdöl reich geworden. Die Energiewende könnte diese Einnahmen in geringerem Ausmaß sprudeln lassen. Daher arbeitet die Regierung seit Langem daran, die Wirtschaft zu diversifizieren. Emsig wird im In- und Ausland investiert. Der 1971 gegründeter Public Investment Funds nähert sich der Billionen-Dollar-Marke. Sein derzeitiger Chef, Yasir bin Othman Al-Rumayyan, sei mit Ben Horowitz befreundet, berichtet die NYT. Endgültig beschlossen ist die Zusammenarbeit bei KI aber noch nicht.

Podcast: KI-Update

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Microsoft hat Mustafa Suleyman, Mitbegründer von Googles KI-Labor DeepMind, als CEO eines neuen Teams eingestellt, das für die KI-Produkte des Unternehmens wie Copilot, Bing und Edge verantwortlich ist. Suleyman wird als Executive Vice President von Microsoft AI tätig sein und dem Führungsteam angehören, das direkt an CEO Satya Nadella berichtet.

Suleyman war Mitbegründer von DeepMind im Jahr 2010 und verließ das Unternehmen 2019. Anschließend stellte Google ihn für Produktmanagement und KI-Politik ein, bevor er das Unternehmen 2022 endgültig verließ. Nach seinem Weggang von Google gründete Suleyman das LLM-Start-up Inflection AI. Er nahm jetzt einige Mitarbeiter seines Inflection-Teams mit zu Microsoft.

Suleymans Wechsel zu Microsoft ist ein bedeutender personeller Gewinn für das Unternehmen im Wettbewerb um Führungskräfte im Bereich generativer KI. Seine Erfahrung und Expertise dürften Microsofts eigene Entwicklung von KI-Produkten für Verbraucherinnen und Verbraucher voranbringen. Denn Microsoft arbeitet abseits seiner Beteiligungen an KI-Unternehmen wie OpenAI unter anderem auch an eigenen, ressourcensparenden KI-Modellen.

Stability AI hat mit Stable Video 3D, kurz SV3D, ein neues generatives Modell vorgestellt. Es soll die Qualität, Konsistenz und Kontrollierbarkeit bei der Erstellung von 3D-Inhalten aus Einzelbildern deutlich verbessern. SV3D basiert auf Stable Video Diffusion und kommt in zwei Varianten: SV3D_u erzeugt Orbitalvideos aus Einzelbildern ohne spezifizierte Kamerasteuerung. SV3D_p unterstützt zusätzlich 3D-Objekte als Eingabe und ermöglicht Videos entlang vorgegebener Kamerapfade.

Laut Stability AI bietet der Einsatz von Videodiffusionsmodellen im Gegensatz zu Bilddiffusionsmodellen große Vorteile bei der Generalisierung und Ansichtskonsistenz der generierten Ausgaben. Die Verarbeitungs-Pipeline von SV3D ist komplex. Sie beinhaltet die Erstellung sogenannter Neural Radiance Fields und ein Beleuchtungsmodell, das den korrekten Lichteinwurf je nach Betrachtungswinkel sicherstellt. SV3D kann ab sofort für kommerzielle Zwecke über die Stability-AI-Mitgliedschaft genutzt werden. Für die nicht kommerzielle Nutzung stehen die Modellgewichte auf Hugging Face zum Download bereit.

Das Londoner KI-Start-up hat in den letzten Monaten einige visuelle Modelle auf hohem Niveau vorgestellt, darunter Stable Diffusion 3 für Text-zu-Bild, Stable 3D für Text-zu-3D und Stable Video Diffusion für Text-zu-Video. SV3D könnte jetzt ein weiterer Meilenstein für konsistente 3D-Ansichten aus Einzelbildern sein. Davon könnten vor allem Medienschaffende im Bereich Animation, Game Design und VR profitieren.

Das Bundesland Bayern will mithilfe des KI-Start-ups Aleph Alpha KI-Anwendungen für die eigene Verwaltung entwickeln. Die KI-Tools sollen einen entscheidenden Beitrag zur Entlastung der Verwaltungsangestellten leisten, erklärte das bayerische Digitalministerium. Unter anderem soll die künstliche Intelligenz Dokumente zusammenfassen, Texte übersetzen, auf relevante Gesetzestexte verweisen und Fragen der Verwaltungsmitarbeiterinnen und -mitarbeiter beantworten. Es solle aber ein reines Unterstützungssystem sein und der Mensch die Kontrolle behalten.

Aleph Alpha gab in dem Zuge auch bekannt, einen Standort in der bayerischen Landeshauptstadt München zu eröffnen und das eigene Rechenzentrum in Bayreuth zu erweitern. Mit Luminous verfügt Aleph Alpha über ein eigenes großes KI-Modell und steht damit in Konkurrenz zu den US-Anbietern wie OpenAI. Der formulierte Anspruch der großen deutschen KI-Hoffnung ist es, souveräne Anwendungen mit europäischen Werten auf den Weg zu bringen. Ende vergangenen Jahres konnte sich das Heidelberger Start-up bei einer Finanzierungsrunde rund eine halbe Milliarde US-Dollar sichern.

Wie viel sich Bayern die Zusammenarbeit kosten lässt, wurde nicht gesagt. Entwickelt werden die KI-Anwendungen von byte, der Digitalagentur des Freistaats, die im Rahmen der Kooperation Zugriff auf die Technologie von Aleph Alpha erhalten soll. Bereits bestehende Prototypen sollen nun auf der Technologieplattform Aleph Alphas abgebildet und dann von Verwaltungsangestellten getestet werden. Vergleichbare Tools gibt es bereits für Baden-Württemberg und Hamburg.

(igr)