KI-Update kompakt: KI-Ghibli, OpenAI, EuroBERT, Apple

Das "KI-Update" liefert werktäglich eine Zusammenfassung der wichtigsten KI-Entwicklungen.

vorlesen Druckansicht

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 6 Min.
Von
Inhaltsverzeichnis

OpenAI hat einen neuen Bildgenerator veröffentlicht, der auf dem omnimodalen Modell GPT-4o basiert und nun für einen viralen Trend im Internet sorgt: Bilder im charakteristischen Stil der japanischen Ghibli Studios. Nutzer können einfach ein eigenes Foto bei ChatGPT hochladen und es im unverkennbaren Stil der Filme wie "Das Schloss im Himmel" oder "Mein Nachbar Totoro" umwandeln lassen. Selbst OpenAI-CEO Sam Altman hat sein Profilbild bei X entsprechend angepasst.

Die Beliebtheit wirft jedoch urheberrechtliche Fragen auf, da das KI-Modell mit Bildern aus den Ghibli-Filmen trainiert worden sein muss, um deren Stil so präzise reproduzieren zu können. Ob dies rechtlich zulässig ist, werden Gerichte entscheiden müssen – ähnlich wie bei laufenden Klagen der New York Times gegen OpenAI oder von Künstlern wie Sarah Anderson gegen Midjourney und Stability AI.

OpenAI integriert das Model Context Protocol (MCP) von Konkurrent Anthropic in alle seine Produkte, darunter auch die Desktop-App für ChatGPT. MCP funktioniert wie ein "USB-C-Anschluss für KI-Anwendungen" und standardisiert, wie Anwendungen KI-Modellen Kontext und Zugriff auf Daten bereitstellen. Dies ermöglicht Entwicklern, ihre KI-Anwendungen mit beliebigen Datenquellen zu verbinden, ohne für jeden Anbieter eigene Schnittstellen programmieren zu müssen.

In der KI-Community erfreut sich MCP bereits großer Beliebtheit. Unternehmen wie Block, Apollo, Replit und Codeium haben das Protokoll bereits implementiert. Mit OpenAIs Unterstützung dürfte MCP nun zum De-facto-Standard werden, was langfristig zu einem offeneren KI-Ökosystem führen könnte, in dem Daten und Modelle leichter zusammenarbeiten können.

Ein Konsortium aus Forschungseinrichtungen und Industriepartnern hat das multilinguale Encoder-Modell EuroBERT vorgestellt, das die Leistung in europäischen und weltweit verbreiteten Sprachen verbessern soll. BERT-Modelle (Bidirectional Encoder Representations from Transformers) spielen trotz des Wirbels um generative KI eine wichtige Rolle in Unternehmensanwendungen, etwa bei der Kategorisierung von Texten, Stimmungsanalysen oder semantischen Suchen.

EuroBERT erzielt für deutschsprachige Texte mindestens so gute Ergebnisse wie bisherige deutschsprachige Modelle, arbeitet dabei aber dank moderner Architektur schneller. Zudem bietet es den Vorteil, mit längeren Texten arbeiten zu können und leicht auf andere Sprachen umstellbar zu sein – ein wichtiger Fortschritt, da viele Basismodelle primär mit englischen Texten trainiert sind und ein Finetuning mit deutschen Texten nicht immer zu optimalen Ergebnissen führt.

Das chinesische Unternehmen DeepSeek hat eine neue Version seines KI-Sprachmodells DeepSeek-V3-0324 unter MIT-Lizenz veröffentlicht. Das Modell zeigt deutliche Verbesserungen bei mathematischen Tests und übertrifft in einigen Benchmarks sogar kommerzielle Spitzenmodelle wie OpenAIs GPT-4.5 oder Anthropics Claude 3.7 Sonnet. Im unabhängigen Polyglot-Benchmark erreicht es 55 Prozent und belegt damit Platz 2 der Modelle ohne spezielle "Thinking"-Fähigkeiten.

Die Vorgängerversion diente als Grundlage für DeepSeeks R1 Reasoning-Modell, das als erstes Open-Source-Modell mit OpenAIs o1 konkurrieren konnte. Die neue Version könnte als Basis für ein DeepSeek R2-Modell dienen und damit einen Ausblick auf kommende Leistungssprünge geben, was die Konkurrenz aufmerksam beobachten dürfte.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Apple-CEO Tim Cook hat bei einem Besuch in China das KI-Modell der chinesischen Firma DeepSeek als "exzellent" gelobt. Da Apple Intelligence in China aufgrund von Regierungsauflagen nur mit einem lokalen Partner umgesetzt werden darf, bemüht sich der Konzern um Kooperationen. Berichten zufolge soll Alibaba mit seinem Qwen-Modell der wahrscheinlichste Partner sein, während OpenAIs ChatGPT in der Volksrepublik keine Zulassung hat.

Parallel plant Apple laut Analystenberichten eine GroĂźbestellung von KI-Servern bei Nvidia. Bis zu 250 Reasoning-Server der Bauart GB300-NVL72 im Gesamtwert von einer Milliarde US-Dollar sollen auf der Einkaufsliste stehen. Gleichzeitig setzt der Konzern auf eine eigene KI-Infrastruktur mit seiner Private Cloud Compute, die auf hauseigenen Chips basiert.

Podcast: KI-Update
KI-Update

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Alibaba hat mit Qwen2.5-VL-32B eine neue Version seines multimodalen KI-Modells unter Apache-2.0-Lizenz veröffentlicht. Das Modell mit 32 Milliarden Parametern übertrifft laut Hersteller in ersten Benchmarks vergleichbare offene Modelle wie Gemma 3-27B und Mistral Small 3.1 24B und kann teilweise sogar mit doppelt so großen Modellen wie GPT-4o mithalten. Besonders bei der Bildanalyse liefert es präzise Ergebnisse, wie detaillierte Beschreibungen komplexer Karten mit genauer Interpretation von Merkmalen zeigen.

Das Entwicklerteam kündigt an, sich bei der Weiterentwicklung auf längere und effektivere Reasoning-Prozesse zu konzentrieren, um noch komplexere visuelle Aufgaben bewältigen zu können. Ende 2024 hatte Alibaba mit QVQ bereits sein erstes multimodales Modell mit Reasoning-Fähigkeiten präsentiert.

Der Meeting-Assistent Krisp erweitert seine KI-gestützte Desktop-App um eine Funktion, die Akzente in Echtzeit aus einer Sprache herausfiltern kann. In einer ersten Beta werden indische Akzente in Standard-Englisch umgewandelt – später sollen philippinische, lateinamerikanische und europäische Akzente folgen, auch für Deutschland. Die Software lässt sich in alle gängigen Konferenzplattformen wie Zoom, Microsoft Teams und Google Meet integrieren.

Im Gegensatz zu anderen KI-Assistenten muss Krisp nicht in die Konferenzsoftware integriert werden, sondern arbeitet im Hintergrund, wo es Sprache direkt auf dem Gerät verarbeitet. Die KI-Akzentumwandlung verändert die Stimme des Sprechers in Echtzeit mit einer Verarbeitungslatenz von nur 200 Millisekunden.

(igr)