OpenAI führt neuen Voice Mode für ChatGPT ein

Bis Herbst sollen alle ChatGPT-Plus-Nutzer Zugriff auf den erweiterten Sprachmodus bekommen – als Alpha-Version.

(Bild: Tada Images/Shutterstock.com)

31.07.2024, 10:19 Uhr

Lesezeit: 3 Min.

Von

Eva-Maria Weiß

OpenAI beginnt damit, die Alpha-Version des neuen Voice-Modes für ChatGPT zur Verfügung zu stellen. Mit ihm kann man in Echtzeit kommunizieren, dabei soll er deutlich leistungsfähiger sein, als sein Vorgänger. Zunächst bekommen wenige zahlende Nutzerinnen und Nutzer von ChatGPT Zugang zu dem Sprachmodus. Bis Herbst plant OpenAI nach eigenen Aussagen, dass alle Menschen mit Plus-Konto auf die Stimmen zugreifen können.

Den erweiterten Sprachmodus hatte OpenAI im Frühjahr angekündigt. Die Erweiterung sollte eigentlich schon im Juni erscheinen, der Termin wurde dann jedoch auf Juli verschoben. Das Datum halten sie nun knapp ein. Welche Probleme zu der Verzögerung führten, ist nicht bekannt. Da es sich nach wie vor um eine Alpha-Funktion handelt, geht es laut OpenAI auch erstmal darum, Feedback einzuholen. KI-Unternehmen zeichnen sich geradezu dadurch aus, Beta und nun auch Alpha-Versionen ihrer Dienste in der Breite verfügbar zu machen. Bei auftauchenden Fehlern berufen sie sich dann auf diesen Status.

Mit dem erweiterten Sprachmodus kann man natürliche Unterhaltungen in Echtzeit mit dem Chatbot führen. Er reagiert sogar auf Emotionen. Bei der Vorstellung vom Unterbau, dem Omnimodell GPT-4o, zeigten Mira Murati, CTO, und weitere Mitarbeiter, wie das neue Modell bei Rechenaufgaben helfen kann, die auf einem Papier stehen und in die Kamera gehalten werden. Außerdem gab es eine Show-Einlage, wie GPT-4o den Gesichtsausdruck bei einem Live-Selfie interpretiert. Allerdings bleiben die dafür nötigen Funktionen weiterhin verschlossen. Video- und Bildschirmfreigabe sind nicht Teil der Alpha-Phase, sie werden später erst eingeführt.

Zugriff und Sicherheit für GPT-4o und den Sprachmodus

Wer Zugriff auf den neuen Sprachmodus hat, bekommt einen Hinweis in ChatGPT und eine Mail mit Anweisungen zur Nutzung.

KI-Update abonnieren

Werktägliches Update zu den wichtigsten KI-Entwicklungen, freitags immer mit Deep Dive.

Ausführliche Informationen zum Versandverfahren und zu Ihren Widerrufsmöglichkeiten erhalten Sie in unserer Datenschutzerklärung.

OpenAI hat nach eigenen Aussagen besonders viel Wert auf die Sicherheit der Funktion gelegt. Mehr als 100 externe Red-Teamer sollen sie getestet haben. ChatGPT kann auch mit erweitertem Sprachmodus keine Stimmen anderer Personen imitieren. Es gibt vier voreingestellte Stimmen, die in Zusammenarbeit mit Synchronsprechern entwickelt wurden. Zwischenzeitlich hatte es Vorwürfe gegeben, eine der Stimmen würde wie Her aus dem gleichnamigen Film klingen, die Rolle spielt Scarlett Johansson, die sich öffentlich beschwerte. Es gibt zudem Filter, die das Erzeugen von Musik oder anderer urheberrechtlich geschützter Audiodaten verhindern.

Angekündigt ist auch ein Bericht, in dem erklärt wird, wie der erweiterte Sprachmodus sicherer und angenehmer gemacht wurde, schreibt OpenAI in einer Pressemitteilung.