KI-Update kompakt: Gemini-Bildgenerierung, Mozilla Foundation, Suno AI, MWC

Das "KI-Update" liefert werktäglich eine Zusammenfassung der wichtigsten KI-Entwicklungen.

In Pocket speichern vorlesen Druckansicht

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 10 Min.
Von
Inhaltsverzeichnis

Google setzt die Funktion seines KI-Chatbots Gemini, Bilder von Menschen zu generieren, vorübergehend aus. Anlass sind historische Ungenauigkeiten bei der Generierung von Bildern. Nutzer hatten Gemini etwa gebeten, Bilder deutscher Soldaten aus dem Jahr 1943 zu generieren und Googles Bildmodell generierte Bilder, die teilweise Personen afroamerikanischer und asiatischer Abstammung zeigten.

In einer Stellungnahme erklärte Google, dass es an der Behebung der Probleme arbeite und die Bilderzeugung von Personen vorerst aussetzen werde. Eine verbesserte Version solle bald wieder veröffentlicht werden. Die Fehler seien auf eine Wechselwirkung mit dem Schutz vor Missbrauch und einem Modell zurückzuführen, das im Laufe der Entwicklung immer vorsichtiger geworden sei und manche Prompts gleich ganz ablehne.

Stability AI hat die Early Preview von Stable Diffusion 3, einem verbesserten Bildgenerator, veröffentlicht. Nutzer können sich auf einer Warteliste registrieren, um die neue Version zu testen. Der Bildgenerator soll besser mit Text umgehen und eine höhere Bildqualität bieten. Zudem kann er Multi-Subject-Prompts effizienter verarbeiten. Stability AI bietet den Generator mit 800 Millionen bis 8 Milliarden Parametern an, um unterschiedliche Anforderungen zu erfüllen.

Stable Diffusion 3 verwendet nach Angaben des Unternehmens eine Diffusion-Transformer-Architektur und Flow Matching; ein detaillierter Bericht über die Funktionsweise soll noch folgen. Laut StabilityAI sind bereits Sicherheitsmaßnahmen eingebaut, um Missbrauch zu verhindern.

Die Mozilla Foundation hat in einer Studie mit dem Titel "In Transparency We Trust? Evaluating the Effectiveness of Watermarking and Labeling AI-Generated Content" die Herausforderungen und Möglichkeiten der Kennzeichnung von KI-generierten Inhalten untersucht. Die Studie betont die Notwendigkeit eines ganzheitlichen Ansatzes für die Governance von KI-generierten Inhalten, der technologische, regulatorische und bildungspolitische Maßnahmen kombiniert, um Risiken zu reduzieren. Die Autoren empfehlen, maschinenlesbaren Verfahren wie unsichtbaren Wasserzeichen Vorrang einzuräumen und "Slow AI"-Lösungen zu entwickeln, bei denen Nachhaltigkeit und Ethik Vorrang vor schnellem Wachstum haben.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Die Studie betont die Bedeutung der Balance zwischen Transparenz und Privatsphäre, fordert die Verbreitung und Standardisierung von unvoreingenommenen Erkennungsmechanismen und regt die Erforschung von Open-Source-Wasserzeichenmethoden an. Die Analyse schlägt vor, regulatorische Sandkästen zu nutzen, um Technologiepolitik zu testen und zu verfeinern, und den Einsatz von Legal Tech zur Durchsetzung von Technologiepolitik zu untersuchen. Wichtig sei aber auch die Aufklärung und Sensibilisierung der Nutzer, um das Bewusstsein und das Verständnis für KI-generierte Inhalte zu erhöhen.

Das US-Start-up Suno AI hat die Alpha-Version V3 seines Musikgenerators für Pro- und Premier-Abonnenten freigeschaltet und bittet Nutzer um Feedback. Im Vergleich zur aktuellen Version V2 soll V3 bessere Audioqualität, mehr Ausdruckskraft und Geschwindigkeit bieten, zusätzliche Sprachen und Instrumentalstücke unterstützen und es ermöglichen, Songs an beliebigen Stellen fortzusetzen.

Nach Angaben des Unternehmens soll V3 realistischere und authentischere Musik erzeugen und das Potenzial haben, "den Stand der Technik für generative Musik neu zu definieren". Während der Testphase erhalten die Nutzer 300 kostenlose Credits zum Experimentieren und können zwischen V2 und V3 Alpha wechseln. Suno AI plant, das Modell auf Basis des Nutzerfeedbacks zu verbessern. Der Musikgenerator ist über Discord und eine Website verfügbar, Songtexte können auch direkt im Tool generiert werden.

DeepMind-Forscher haben herausgefunden, dass die Reihenfolge der Prämissen in einer Argumentation einen signifikanten Einfluss auf die Leistung von KI-Modellen bei logischen Schlussfolgerungen hat. Die Modelle, darunter GPT-3.5 Turbo, GPT-4 Turbo, PaLM 2-L und Gemini Pro, erzielten die besten Ergebnisse, wenn die Prämissen in derselben Reihenfolge präsentiert wurden, in der sie in den logischen Schlussfolgerungen auftauchten. Bei einer geänderten Reihenfolge sank die Genauigkeit um mehr als 30 Prozent.

Podcast: KI-Update

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Die Ergebnisse zeigen erneut die Grenzen großer Sprachmodelle im Schlussfolgern auf und dass GPT-4 & Co. in ihrer aktuellen Form nicht wie Menschen denken. Ob das eine fundamentale Einschränkung der verwendeten Trainingsmethoden, der Architektur oder der Größe ist, ist ein zentraler Streitpunkt in der KI-Forschung.

Das deutsche Start-up Neura Robotics plant, seine gesamte Roboterfertigung noch in diesem Jahr von China nach Metzingen bei Stuttgart zu verlagern. Das Unternehmen entwickelt kollaborative Roboter, sogenannte Cobots, sowie kognitive Roboter, die mit Sensoren und KI ausgestattet sind, um die Bedienung zu erleichtern. Neura Robotics arbeitet auch an Servicerobotern für Pflege, Büroumgebungen und Haushalte.

Gründer David Reger sieht Deutschland als optimalen Standort für kognitive Robotik und "Made in Germany" als Qualitätssiegel. Um den hohen Energiepreisen entgegenzuwirken, plant das Unternehmen den Einsatz einer großflächigen Photovoltaikanlage und autarker Gebäude in der neuen Fertigung. Neura Robotics hat kürzlich Investitionen von 65 Millionen Euro aus Europa und den USA erhalten und plant, ein KI-Entwicklungslabor in München und ein Vertriebsbüro zu eröffnen.

Die Neura-Roboterpalette umfasst den Roboterarm MAiRA mit sieben Freiheitsgraden und 3D-Wahrnehmung sowie den räderbasierten Roboter MiPA mit starkem Arm und Rucksack, der als Prototyp für häusliche Umgebungen entwickelt wird.

Politikberater Steve Kramer, der für Joe Bidens parteiinternen Herausforderer Dean Phillips arbeitet, hat zugegeben, für die KI-generierten Anrufe verantwortlich zu sein, die im Januar Wähler in New Hampshire von der Teilnahme an den Vorwahlen abhalten wollten. Kramer behauptet, sein Arbeitgeber habe nichts von der Aktion gewusst und dass er damit auf die Gefahren von KI in der Politik aufmerksam machen wollte.

Die KI-generierte Stimme Joe Bidens und die gefälschte Telefonnummer des Anrufers hatten Befürchtungen über die Nutzung von KI-Technik zur Wahlbeeinflussung geschürt. Kramer hat eine Vorladung der US-Telekommunikationsaufsicht erhalten und rechnet mit Klagen sowie möglicherweise einer Gefängnisstrafe.

Microsoft hat eine KI-basierte Bildbearbeitungsfunktion namens "Generative Erase" für seine Windows Photos App eingeführt, die ähnlich wie Googles "Magic Eraser" arbeitet. Die Funktion ermöglicht es, unerwünschte Objekte wie Hundeleinen oder im Hintergrund störende Personen einfach zu entfernen. Die Anwendung erkennt automatisch die zu löschenden Elemente und ersetzt sie nahtlos mit neuem Inhalt.

"Generative Erase" steht zunächst nur Windows Insidern zur Verfügung und kann auf Windows 11 Arm64-Geräten und Windows 10 genutzt werden. Google bietet seit einem Jahr eine ähnliche Funktion auf neueren Pixel-Geräten und für Google-One-Nutzer auf Android und iOS an. Meta hat ebenfalls ein KI-Freisteller-Tool entwickelt, das jedoch noch nicht in seine Dienste integriert ist. Microsoft testet derzeit auch ein Freistellerwerkzeug in MS Paint für Insider.

Jasper, ein Anbieter von KI-Unternehmenssoftware, hat die KI-Bildplattform Clipdrop von Stability AI erworben. Clipdrop bietet KI-Bildbearbeitungswerkzeuge und basiert teilweise auf Open-Source-KI-Modellen von Stability AI. Geschäftskunden können nun über die Jasper API auf Clipdrop zugreifen, während Privatkunden die Standalone-Version weiterhin nutzen können.

Stability AI hatte das Clipdrop-Team erst Anfang März 2023 übernommen. CEO Emad Mostaque erwartet eine enge Zusammenarbeit und glaubt, dass Open-Source-Anbieter langfristig erfolgreicher sein werden als Unternehmen mit proprietären KI-Modellen wie OpenAI.

Berichten zufolge geriet Stability AI im vergangenen Jahr finanziell in Schwierigkeiten. Speziell die Clipdrop-Übernahme wurde hier als Kritikpunkt genannt.

Qualcomm hat auf dem MWC 2024 zwei neue KI-gestützte Plattformen vorgestellt: FastConnect 7900 und Snapdragon X80. FastConnect 7900 unterstützt WLAN bis zu Wi-Fi 7 und ermöglicht Übertragungsraten von bis zu 5,8 Gbit/s. Die integrierte KI soll Latenz und Energiebedarf optimieren und für stabilere Verbindungen sorgen. Zudem wurde die Strukturbreite von 14 auf 6 nm verkleinert, wodurch der Energiebedarf etwa 40 Prozent geringer ausfallen soll als beim Vorgänger FastConnect 7800. Erstmals integriert ist Ultra-Wideband (UWB) für präzise Positionsbestimmung.

Der Snapdragon X80 bietet Übertragungsraten von bis zu 10 Gbit/s im Downstream und bis zu 3,5 Gbit/s im Upstream. Die überarbeitete KI soll die Verbindungsstabilität und -qualität verbessern, den Energiebedarf in mmWave-Netzen um bis zu 10 Prozent reduzieren und die Standortbestimmung um 30 Prozent genauer gestalten. Beide Plattformen sind für den Einsatz in verschiedenen Geräten wie Smartphones, Tablets, Notebooks, AR- und VR-Headsets, Pkw-Infotainment-Systemen und industriellen IoT-Szenarien vorgesehen. Der kommerzielle Start ist für die zweite Jahreshälfte 2024 geplant.

Whispp, ein niederländisches Start-up, präsentiert auf dem Mobile World Congress (MWC) eine App, die Menschen mit Spracheinschränkungen hilft, indem sie geflüsterte Worte in gesprochene Sätze umwandelt. Die App verarbeitet die gesprochenen Sätze in der Cloud und lässt sie dem Empfänger mit einer künstlichen Stimme in gewöhnlicher Lautstärke vorsprechen. Laut Whispp-CEO Joris Castermans soll die App zukünftig auch auf Smartphones mit KI-Chip ohne Cloud-Anbindung laufen. Whispp arbeitet mit einem Abomodell, das 19,99 Euro pro Monat kostet und 60 Minuten Gespräche über die Handy-App an Mobil- und Festnetzanschlüsse umfasst. Nutzer können ihre eigene KI-Stimme generieren, indem sie rund zwei Minuten Material bereitstellen oder bereits vorhandene Sprachaufnahmen verwenden.

(igr)