OpenAIs ChatGPT liest Antworten auf Wunsch vor
ChatGPT kann ab sofort Antworten vorlesen. FĂĽnf Stimmen und 37 Sprachen stehen zur VerfĂĽgung.
Mit einem einfachen Klick auf einen Button oder durch Gedrückthalten des Textes liest ChatGPT künftig Antworten vor. Das geschieht dank automatischer Sprachenerkennung in der jeweiligen Sprache, in der auch die Antwort des Chatbots verfasst ist. 37 Sprachen kann ChatGPT sprechen. Dazu stehen fünf verschiedene Stimmen zur Auswahl. ChatGPT konnte bereits auf Spracheingaben mittels Sprache reagieren. Die neue Funktion erweitert die Fähigkeit.
"Read aloud" soll bereits für die Web-Version sowie die Apps für iOS und Android verfügbar sein. Bei uns ist sie es noch nicht angekommen. Um die Vorlesefunktion nutzen zu können, reicht dann laut OpenAI ein kostenloser Zugang zu ChatGPT. Sie läuft freilich auch bei GPT-4.
Bereits im vergangenen Herbst hatte OpenAI eine Sprachfunktion für ChatGPT veröffentlicht. Über diese konnte und kann man per Audio Prompts eingeben. ChatGPT versteht sie je nach Sprecher unterschiedlich gut und antwortet auch in Form von Audio. Nun folgt also das Vorlesen der Antworten. Man bekommt den Text und kann sich diesen anhören. Es gibt zudem die Möglichkeit, Antworten immer vorlesen zu lassen – als Standardeinstellung. Das dürfte nicht zuletzt der Barrierefreiheit des Chatbots dienen.
Wie OpenAI in einem Beitrag bei X zeigt, muss man in den Apps den Antworttext lange gedrĂĽckt halten, um ihn vorgelesen zu bekommen. In der Web-Version soll es einen Button geben. Das Beispiel aus dem Post klingt relativ natĂĽrlich, allerdings ist schon zu erkennen, dass es sich um einen maschinell gelesenen Text handelt.
KI fĂĽr Audio, Stimmen und als Klon
Auch Googles Gemini kann Prompts per Spracheingabe empfangen und auf Wunsch Antworten vorlesen. Es stehen zwar keine verschiedenen Stimmen zur Verfügung, die Vorlesefunktion klingt dennoch deutlich flüssiger, als etwa vorherige Vorlesefunktionen in gängigen Assistenten.
Beide Vorlesefunktionen klingen dennoch nicht so natürlich, wie das KI-Stimmen eigentlich bereits können, beispielsweise durch Anbieter wie ElevenLabs, die Stimmen synthetisieren. Daher ist zu vermuten, dass die Antworten absichtlich etwas künstlich vorgelesen werden. KI-Stimmen und geklonte Stimmen bergen immer auch das Potenzial des Missbrauchs. So reichen bereits wenige Sekunden Audio-Material aus, um eine Stimme klonen zu können. Meta, Microsoft und Google halten deshalb ihre dazugehörigen KI-Modelle nach eigenen Aussagen noch zurück. Zuletzt hatten Fake-Anrufe mit der vermeintlichen Stimme von Joe Biden in den USA für Aufregung gesorgt.
(emw)