KI-Update kompakt: Perplexity AI, Microsoft Recall, Runway Gen3, Medizin

Das "KI-Update" liefert werktäglich eine Zusammenfassung der wichtigsten KI-Entwicklungen.

In Pocket speichern vorlesen Druckansicht

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 7 Min.
Von
Inhaltsverzeichnis

Der KI-Assistent Perplexity positioniert sich nicht als Suchmaschine, sondern als "Antwortmaschine". In unserem Interview erklären CEO Aravind Srinivas und Telekom-Manager Jonathan Abrahamson die Partnerschaft der beiden Unternehmen. Perplexity liefert direkt Antworten und Zusammenfassungen mit Quellenangaben, anstatt nur Links anzuzeigen. Ziel ist es, dem Nutzer möglichst komfortabel Informationen bereitzustellen, ohne ihn zum "Prompt Engineer" zu machen.

Die Deutsche Telekom bietet ihren Kunden kostenlosen Zugriff auf Perplexity Pro für ein Jahr. Damit will das Telekommunikationsunternehmen einen Beitrag zur "Demokratisierung des Zugangs zu künstlicher Intelligenz" leisten. Perplexity Pro bündelt die Leistungsfähigkeit mehrerer großer Sprachmodelle in einer Oberfläche.

Auf die Frage, wie mit der Problematik umgegangen wird, dass Verlage durch Antwortmaschinen wie Perplexity weniger Werbeeinnahmen generieren, antwortet Srinivas, dass ein neues Analyse- und Vergütungssystem entwickelt werden soll. Dabei sollen nicht nur Klicks, sondern auch die Nutzung der Inhalte auf der Antwortplattform berücksichtigt werden. Angedacht ist eine Beteiligung der Verlage an den Werbeeinnahmen von Perplexity.

Nvidia stellt mit Nemotron-4 340B kostenlose Open-Source-Sprachmodelle für die Generierung hochwertiger synthetischer Daten zur Verfügung. Die Modellfamilie soll Entwicklerinnen und Entwicklern helfen, kommerzielle Sprachmodelle besser zu trainieren und an spezifische Anwendungen anzupassen. Nemotron-4 340B besteht aus einem Basismodell, das mit 9 Billionen Token trainiert wurde, einem Instruktionsmodell zur Erzeugung vielfältiger synthetischer Daten und einem Belohnungsmodell zum Herausfiltern qualitativ hochwertiger Antworten.

Laut Nvidia erzeugt das Nemotron-4 340B Instruct-Modell vielfältige synthetische Daten, die die Leistung und Robustheit maßgeschneiderter LLMs in verschiedenen Anwendungsbereichen wie Gesundheitswesen, Finanzwesen, Fertigung und Einzelhandel verbessern können.

Das Instruktionsmodell schneidet in Benchmarks meist besser ab als andere Open-Source-Modelle und liegt in einigen Aufgaben laut Nvidia auf GPT-4-Niveau. Nvidia stellt die Modelle unter der Open-Model-Lizenz bereit, die auch eine kommerzielle Nutzung erlaubt. Strategisch positioniert sich Nvidia damit nicht als Konkurrenz zu anderen Sprachmodellen, sondern als Grundlage für deren Training.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Runway hat mit Gen-3 Alpha ein neues KI-Modell zur Videogenerierung vorgestellt. Das Modell bietet laut Runway signifikante Verbesserungen gegenüber dem Vorgänger Gen-2 in Bezug auf Detailtreue, Konsistenz und Bewegungsdarstellung. Es wurde mit einer Mischung aus Videos und Bildern trainiert und unterstützt Funktionen wie Text-to-Video, Image-to-Video und Text-to-Image sowie verschiedene Steuerungsmodi.

Gen-3 Alpha ist das erste Modell einer Serie, die auf einer neuen Trainingsinfrastruktur für große multimodale Modelle basiert. Details zu den konkreten Änderungen wurden nicht bekannt gegeben. Das Unternehmen betont die Fähigkeit des Modells, menschliche Charaktere mit verschiedenen Aktionen, Gesten und Emotionen zu generieren sowie Fortschritte bei der Zeitkontrolle über Elemente und Übergänge in den Szenen. Neben der Standardversion arbeitet Runway auch mit Unterhaltungs- und Medienunternehmen an angepassten Varianten von Gen-3 zusammen. Diese sollen eine bessere stilistische Kontrolle, konsistentere Charaktere und die Erfüllung spezifischer Anforderungen ermöglichen.

Parallel zu Gen-3 Alpha kündigt Runway neue Sicherheitsvorkehrungen an, darunter ein verbessertes Moderationssystem und die Unterstützung des C2PA-Standards. Das Unternehmen sieht in dem Modell einen Schritt hin zu generellen Weltmodellen und einer neuen Generation der KI-gestützten Videogenerierung. Gen-3 Alpha soll in den nächsten Tagen für alle Interessierten verfügbar sein.

Microsoft hatte die Verteilung der Release-Preview auf Windows 11 24H2 in der letzten Woche überraschend unterbrochen, nun steht sie in aktualisierter Form wieder bereit. Auffälligste Änderung: Die Recall-Funktion, mit der man über eine KI-Suche Screenshots der Vergangenheit durchforsten kann, ist nicht mehr enthalten.

Die Entscheidung dürfte eine Reaktion auf die Kritik an der zunächst sehr weitgehend ausgelegten Funktionalität von Recall sein. Nach massivem Gegenwind hatte Microsoft angekündigt, Recall zu einer Opt-in-Funktion zu machen und die erfassten Daten besser zu schützen. Der genaue Zeitpunkt für die Einführung von Recall steht noch nicht fest.

Dafür soll die Release Preview eine Copilot-App mitbringen, deren Verteilung aber noch nicht begonnen hat. Vorherige Updates hatten bereits Verbesserungen bei Widgets, Snap Layout, Autobrightness und Bildschirmschonern mitgebracht.

Podcast: KI-Update

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Das in Dubai ansässige KI-Start-up Camb AI hat sein neues Sprachklonmodell Mars5 vorgestellt. Es soll im Vergleich zur Konkurrenz von ElevenLabs einen höheren Realismus bieten und unterstützt 140 Sprachen, darunter auch ressourcenarme wie Isländisch und Swahili. Nach Angaben des Unternehmens erfasst Mars5 Nuancen in der Sprache, einschließlich Emotionen, Rhythmus und Intonation.

Camb AI hat außerdem eine quelloffene Version von Mars5 auf GitHub veröffentlicht, die allerdings nur Englisch unterstützt. Camb plant auch die Veröffentlichung von Boli, einem Übersetzungsmodell, das den Kontext und die Umgangssprache besser erfassen soll als Tools wie Google Translate. Das Unternehmen arbeitet mit Kunden wie Major League Soccer, Tennis Australia und Filmstudios zusammen.

Auf einer Veranstaltung der Ärztekammer Niedersachsen und der Medizinischen Hochschule Hannover diskutierten Experten über den sinnvollen Einsatz von KI in der Medizin und die damit verbundenen Risiken und Verantwortlichkeiten.

Einerseits bietet KI große Chancen, beispielsweise bei der Diagnoseunterstützung, Therapieüberwachung oder personalisierten Medizin. Andererseits warnen Kritiker vor Gefahren wie Intransparenz, Diskriminierung oder einem Verlust an menschlicher Zuwendung. Als zentrale Herausforderung gilt die Erklärbarkeit der oft als "Blackbox" wahrgenommenen KI-Systeme.

In Workshops setzten sich die Teilnehmer mit fiktiven, aber realistischen Zukunftsszenarien auseinander. Diskutiert wurde unter anderem die Frage, wer die Verantwortung trägt, wenn eine KI Fehldiagnosen stellt oder Patienten heimlich überwacht. Aus Sicht der Ärzte muss stets die Autonomie der Patienten gewahrt und eine unabhängige ärztliche Plausibilitätsprüfung der KI-Empfehlungen sichergestellt werden. Eine pauschale Gleichstellung von Arzt und KI lehnten die Teilnehmenden ab.

Apple führt mit iOS 18, macOS 15 und Co. einen eigenen KI-Bildgenerator für Emojis ein: die sogenannten Genmojis. Sie lassen sich über eine textbasierte Eingabe erstellen und kombinieren vorhandene Emojis mit von der KI erzeugten Elementen. Die Integration erfolgt über eine eigene API und ist in jeder App möglich.

Genmojis passen sich automatisch an Textgröße und -formatierung an. Sie können als Sticker oder Memojis geteilt und sogar in RTF-Dokumente kopiert werden. Auf alten Betriebssystemen wird anstelle des Bildchens eine Beschreibung angezeigt.

Obwohl Genmojis zusammen mit iOS 18 enthüllt wurden, lassen sie sich in den ersten Entwickler-Betas noch nicht ausprobieren. Apple will die neue Funktion, wie auch seine anderen KI-Features, erst in den kommenden Wochen freischalten. Der Konzern verspricht sich von Genmojis eine Bereicherung der Kommunikation, da Nutzer auf Basis von Beschreibungen oder Fotos eigene Emojis kreieren können.

(igr)