KI-Update kompakt: ChatGPT Voice-Mode, Open-Source KI, Runway, Mathe-KI

Das "KI-Update" liefert werktäglich eine Zusammenfassung der wichtigsten KI-Entwicklungen.

In Pocket speichern vorlesen Druckansicht

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 7 Min.
Von
Inhaltsverzeichnis

OpenAI stellt die Alpha-Version des neuen Voice-Modes für ChatGPT zur Verfügung. Mit ihm können Nutzer in Echtzeit mit dem Chatbot kommunizieren. Der erweiterte Sprachmodus soll deutlich leistungsfähiger sein als sein Vorgänger und sogar auf Emotionen reagieren. Zunächst erhalten nur wenige zahlende Nutzer Zugang, bis zum Herbst soll der Modus jedoch für alle Plus-Konten verfügbar sein. Die Einführung hatte sich von Juni auf Juli verschoben.

Der Voice-Mode basiert auf dem Omnimodell GPT-4o. Bei dessen Vorstellung zeigten OpenAI-Mitarbeiter, wie es beispielsweise bei Rechenaufgaben auf Papier oder der Interpretation von Gesichtsausdrücken in Echtzeit helfen kann. Diese Funktionen sind in der Alpha-Phase jedoch noch nicht enthalten, ebenso wie Video- und Bildschirmfreigabe. Die vier voreingestellten Stimmen wurden in Zusammenarbeit mit Synchronsprechern entwickelt. Filter verhindern das Erzeugen urheberrechtlich geschützter Audioinhalte. Laut OpenAI wurde besonders viel Wert auf die Sicherheit gelegt, die von über 100 externen Red-Teamern getestet wurde.

Forscher der Stanford University widersprechen der These, dass das Training von KI-Modellen mit synthetischen Daten zu einem "Modellkollaps" führt. Eine kürzlich in Nature veröffentlichte Studie hatte angebliche Belege dafür geliefert, dass KI-Modelle durch synthetische Trainingsdaten an Leistung verlieren.

Die Stanford-Forscher kritisieren jedoch, dass die Studie unrealistische Annahmen trifft. So würden nach jeder Iteration alle vorherigen Daten verworfen und die Datenmenge bleibe konstant. In der Realität nehme die Datenmenge aber zu. In eigenen Tests konnte das Stanford-Team zeigen, dass ein Modellkollaps verhindert wird, wenn synthetische Daten zu den vorhandenen Daten hinzugefügt werden, statt sie zu ersetzen.

Meta demonstriert mit LLaMA 3.1, wie synthetische Daten die Leistung verbessern können. Durch "Execution Feedback" werden fehlerhafte Lösungen iterativ korrigiert. Nur fehlerfreie Lösungen fließen in die Weiterentwicklung ein.

Das US-Handelsministerium rät in einem Bericht davon ab, die Veröffentlichung von KI-Modellgewichten für Open-Source-KI-Modelle zu reglementieren. Die US-Regierung sollte die Veröffentlichung von Open-Source-KI-Modellen vorerst nicht regulieren oder einschränken.

Das empfiehlt die US-Behörde für Telekommunikation und Informationstechnologie (NTIA) in einem Bericht über "Dual-Use Foundation Models". Das sind Modelle mit mindestens zehn Milliarden Parametern und veröffentlichten Gewichten, wie zum Beispiel LLaMA 3, die flexibel angepasst werden können und für ein breites Anwendungsspektrum trainiert wurden. Laut dem Bericht bergen diese ein ernsthaftes Risiko für die öffentliche Sicherheit und Gesundheit, etwa indem sie die Verbreitung von Massenvernichtungswaffen oder offensiver Cyberangriffe erleichtern.

Stattdessen will die Regierung die Risiken und Chancen dieser Technologie kontinuierlich bewerten und bei Bedarf eingreifen. Dem Bericht zufolge gibt es derzeit keine ausreichenden Beweise dafür, dass Beschränkungen für Open-Source-Modelle gerechtfertigt wären. Ein Verbot der Veröffentlichung würde Forscher, Regulierungsbehörden, die Zivilgesellschaft und die Industrie daran hindern, mehr über die Technologie zu erfahren.

Der Bericht soll die US-Regierung in die Lage versetzen, schnell auf Risiken zu reagieren, die sich aus zukünftigen Modellen ergeben könnten. Es sei nicht auszuschließen, dass Beschränkungen für Open-Source-Modelle künftig sinnvoll sein könnten, so die US-Behörde.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Midjourney hat Version 6.1 seines KI-Bildmodells veröffentlicht. Das Update bringt laut CEO David Holz eine verbesserte Bildqualität mit weniger Artefakten und detaillierteren Texturen. Die Standardbildgenerierung ist nun 25 Prozent schneller.

Besonders optimiert wurden menschliche Extremitäten, Pflanzen, Tiere und kleine Bilddetails. Auch die Textgenauigkeit wurde verbessert, insbesondere bei Wörtern in Anführungszeichen. Ein neuer Parameter ermöglicht mehr Textur auf Kosten der Bildkohärenz. Die Personalisierungsfunktionen des Modells wurden erweitert. In- und Outpainting basieren weiterhin noch auf Version 6.0., denn Version 6.2 soll bereits im August erscheinen, basierend auf Nutzerdaten der aktuellen Version. Trotz der langen Entwicklungszeit von sieben Monaten bringt das Update nur graduelle Verbesserungen. Der angekündigte Versionssprung auf Version 7 blieb aus.

Podcast: KI-Update

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Interne Dokumente von Runway, die 404media zugespielt wurden, legen nahe, dass die Anfang Juli veröffentlichte Alpha-Version von Runways generativer Video-KI Gen-3 mit YouTube-Videos großer Kanäle und illegal beschafften Filmen trainiert wurde. Die geleakten Tabellen enthalten Links zu hunderten von YouTube-Kanälen unterschiedlichster Art, darunter Tech-Größen, Unternehmen und öffentlich-rechtliche Sender. Die Nutzung der Videos zum Training widerspricht YouTubes Richtlinien.

Laut einem ehemaligen Mitarbeiter dienten die Kanäle der firmenübergreifenden Suche nach qualitativ hochwertigen Trainingsvideos. Runway soll die Videos mithilfe des Tools YouTube-DL heruntergeladen haben, um Googles Sperrungen zu umgehen. Das 2022 mit 141 Millionen Dollar finanzierte Unternehmen steht mit seiner Video-KI in Konkurrenz zu Modellen wie OpenAIs Sora. Die geleakten Daten deuten auch auf die Nutzung illegaler Streaming-Seiten als Quellen hin, darunter Links zu Studio Ghibli Filmen. Durch den KI-Hype entsteht ein Wettlauf um Trainingsdaten, der teils fragwürdige Methoden befeuert. Erste Unternehmen wie OpenAI beginnen, offizielle Lizenzverträge für Trainingsinhalte abzuschließen.

Obwohl die Microsoft-Finanzen die Erwartungen übertreffen, gab der Aktienkurs nach Bekanntgabe der Geschäftsberichts nach. Grund sind die gestiegenen externen Erwartungen aufgrund des KI-Booms, sodass es Hoffnungen auf ein stärkeres Cloud-Wachstum gab. Doch das verspricht der Konzern erst für 2025.

So ist der Umsatz der sogenannten intelligenten Cloud des Konzerns zwar um 19 Prozent auf 28,5 Milliarden Dollar gewachsen, doch Analysten waren laut CNBC von 28,7 Milliarden Dollar ausgegangen. Microsoft-Finanzchefin Amy Hood erklärte, dass die Nachfrage nach KI-Angeboten der Azure-Cloud die Kapazitäten übersteigt. Deshalb sei auch das Azure-Wachstum in einigen Teilen Europas im Juni niedriger ausgefallen als erwartet. Für die nächsten beiden Quartale prognostiziert Microsoft ein Azure-Wachstum von 28 und 29 Prozent, aber Analysten waren von mindestens 30 Prozent ausgegangen. Microsoft verspricht höhere Zuwächse aber erst für die zweite Hälfte dieses Geschäftsjahres.

Googles KI-Tochter DeepMind testete ihre Modelle AlphaProof und AlphaGeometry2 mit den Aufgaben der diesjährigen Internationalen Mathematikolympiade (IMO). Gemeinsam konnten die KIs vier von sechs anspruchsvollen Aufgaben aus den Bereichen Algebra, Kombinatorik, Geometrie und Zahlentheorie lösen. Mit 28 von 42 Punkten erreichten sie Silber-Niveau. AlphaProof knackte sogar das schwierigste Problem, an dem fast alle menschlichen Teilnehmer scheiterten. Für eine Goldmedaille fehlte nur ein Punkt. Allerdings hätten die KIs das Zeitlimit von zweimal 4,5 Stunden gerissen.

Die Lösungen wurden von zwei IMO-Goldmedaillengewinnern, darunter ein Fields-Medaillist, begutachtet. Sie zeigten sich sehr beeindruckt von den Fähigkeiten der KI. AlphaProof übersetzt Probleme mithilfe eines Gemini-Sprachmodells zunächst in die Programmiersprache Lean. Der Algorithmus AlphaZero erzeugt dann Lösungsvorschläge, die mit Lean verifiziert werden. Dies verhindert halluzinierte Ergebnisse. AlphaGeometry2 kombiniert neuronale Netze und symbolische KI. Mit einem auf 10-fach mehr Daten trainierten Gemini-Sprachmodell konnte es 83% der IMO-Geometrieaufgaben der letzten 25 Jahre lösen. Die IMO entwickelt sich zum Benchmark für die mathematischen Fähigkeiten von KI auf dem Weg zu einer Künstlichen Allgemeinen Intelligenz (AGI).

(igr)