Ausprobiert: Wenn ChatGPT mit Dir spricht

Es fühlt sich ein bisschen an wie im Film "Her": OpenAI hat seinen Apps erstmals Sprachausgabe spendiert. Wir konnten die iPhone-Version anschauen.

In Pocket speichern vorlesen Druckansicht 34 Kommentare lesen
ChatGPT-Sprachausgabe

ChatGPT denkt kurz nach.

(Bild: OpenAI)

Lesezeit: 6 Min.
Inhaltsverzeichnis

Ist das die Zukunft? Zumindest fühlt sich die neue Sprachausgabe-Funktion in der ChatGPT-App von OpenAI reichlich futuristisch an – und ein bisschen wie im Science-Fiction-Film "Her", bei dem sich der Protagonist in eine Sprachassistentin verguckt. Erstmals ist es nun möglich, mit dem Chatbot in direkten sprachlichen Dialog zu treten – in deutlich besserer Qualität, als man dies von bisherigen Sprachassistenzsystemen wie Siri, Alexa oder Google Assistant kannte. Spracheingabe war in der ChatGPT-App schon länger möglich, nun antwortet das System auf Wunsch auch in einer von fünf Stimmen. Das funktioniert unter iOS und Android; eine dritte Funktion, das Analysieren von Fotos, steht zusätzlich auch im Browser bereit.

Wir hatten die Möglichkeit, die neuen Funktionen auf einem iPhone auszuprobieren. Sie sollen in den kommenden Wochen nach und nach allen zahlenden Benutzern zur Verfügung gestellt werden, die über ein ChatGPT+-Abonnement verfügen, das wie schon zuvor 20 Euro im Monat kostet.

Um die Sprachausgabe zu aktivieren, muss man sich zunächst in die Einstellungen der ChatGPT-App begeben. Dort sind dann die "neuen Funktionen" verzeichnet, sofern man für das Feature freigeschaltet ist. Wir hatten anfangs Probleme, den Menüpunkt zu sehen. Es half, mit einem VPN eine US-IP-Adresse zu nutzen, dann tauchte die Möglichkeit auf, die Sprachausgabe zu aktivieren. Anschließend konnten wir die Funktion auch mit einer deutschen IP nutzen, das VPN also wieder abdrehen.

Um mit dem großen Sprachmodell in Dialog zu treten, klickt man auf das in Chatverläufen neu hinzugekommene Kopfhörer-Icon rechts oben. Es taucht dann eine ganz eigene, minimalistische UI auf. Man sieht einen animierten, sich stauchender Kreis vor schwarzem Hintergrund, während das System die Verbindung zu den OpenAI-Servern herstellt. Das dauert aktuell einige Sekunden, ist also nicht instantan. Taucht ein stehender Kreis auf, ist das System bereit für die Spracheingabe. Dass das System zuhört, sieht man an vier kleinen Kreisen, die den ankommenden Pegel symbolisieren. ChatGPT erkennt, wenn die Eingabe beendet ist und zeigt dann eine animierte Sprechblase, während es "denkt". Auch das dauert wiederum mehrere Sekunden, manchmal etwas länger. Schließlich erfolgt der Output in Sprache. Die Ausgabe ist alternativ auch in Textform verfügbar, wenn man zurück in die Textchatansicht wechselt.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes Video (Kaltura Inc.) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Kaltura Inc.) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Die ChatGPT-App spricht standardmäßig amerikanisches Englisch, beherrscht aber auch Fremdsprachen – beispielsweise ein erstaunlich gutes Deutsch, aber auch Französisch, Polnisch, Japanisch oder Spanisch waren nutzbar. Je nach gewählter Stimme hat diese jeweils einen leichten amerikanischen Akzent. Nahezu nie klingt die Sprachausgabe mechanisch oder nach Roboter. Es werden – selbst wenn sie im Ausgabetext nicht vorkommen – sogar "Ähs" eingebaut. Das Einzige, was im Benutzungsfluss stört, sind die Pausen bei der Verarbeitung der Eingaben. Die Antworten sind zwar meist in einigen Sekunden da, dennoch starrt man währenddessen auf die "Processing"-Animation. Außerdem neigt ChatGPT, wie man es bereits von der reinen Textversion kennt, zum Anhängen (scheinbar) motivierender Sätzlein à la: "Wenn Du weitere Fragen hast, melde Dich." Das passiert erstaunlich häufig bei längeren Antworten und lässt sich dem System auch nicht abgewöhnen, auch wenn man mit Nachdruck darum bittet.

Ist die Verbindung kurz einmal schlecht, gibt es Artefakte in der Sprachausgabe, die sich anhören, als sei man bei einer GSM-Sprachverbindung kurz außerhalb der Antennenreichweite. Die Sprachausgabe passt sich zudem der Lautstärke der Umgebung an – gibt es Nebengeräusche, wird ChatGPT lauter. Das Mikrofon des iPhone bleibt also auch bei der Sprachausgabe ständig aktiv.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

In der Praxis zu beachten ist, dass man die Sprachausgabe nicht durch Sprache beenden kann – man kann ChatGPT also nicht einfach durch Hineinquatschen in die Ausgabe stoppen. Stattdessen muss man auf die schwarze Fläche tippen. Klickt man auf das rot-weiße "X", landet man wieder im Textchatmodus. Die App läuft unter iOS auch im Hintergrund, wenn der Sprachausgabe-Modus nicht beendet wurde, was leicht gruselig sein kann. "Tschüss, pass auf Dich auf. Wenn Du Fragen hast, melde Dich", sprach ChatGPT, während wir bereits in einer ganz anderen Anwendung waren.

Eine weitere neue Funktion, die mancher noch spannender finden dürfte als die Sprachausgabe, ist die Möglichkeit, ChatGPT Bilder vorzulegen, um diese zu analysieren beziehungsweise zu ihnen einen Rat zu erteilen. Auf dem iPhone hat man dazu drei Möglichkeiten: Entweder man aktiviert direkt die Kamera und macht ein Foto – oder man greift auf die Fotomediathek oder den Dateienbrowser zu. Die Fotomediathek ist auf aktuellen iOS-Geräten im Privatmodus aktiv, d.h. man sieht zwar alle seine Bilder, die ChatGPT-App erhält aber nur Zugriff auf das jeweils ausgewählte. Auf Wunsch lassen sich Bereiche im Bild markieren, die den Nutzer besonders interessieren. Wird ein Bild hochgeladen, antwortet ChatGPT sofort mit einer Beschreibung in Textform. Will man darüber dann mit der Sprachausgabe sprechen, muss man wieder auf den Kopfhörer-Knopf drücken.

Wir legten dem System ein Klingelbrett eines Künstlerateliers in Berlin vor. ChatGPT erläuterte daraufhin, was zu sehen war und erlaubte sich sogar den Kommentar, die gelisteten Namen seien "interessant". Auch wurde die Mauer, in die das Klingelbrett integriert ist, beschrieben. Es war uns außerdem möglich, über einen der aufgeführten Künstler mehr zu erfahren. Das Hochladen und Analysieren von Bildern ist auch in der Web-Version von ChatGPT möglich, ob die Sprachausgabe in den Browser kommt, sagt OpenAI bislang nicht.

(bsc)