ChatGPT imitierte Stimme des Nutzers bei internen OpenAI-Tests des Sprachmodus

Der KI-Chatbot hat bei erweiterten Tests des "Advanced Voice Mode" mit der Stimme eines Anwenders geantwortet. Dies sollte eigentlich ausgeschlossen sein.

In Pocket speichern vorlesen Druckansicht 19 Kommentare lesen
ChatGPT-App auf einem Smartphone

(Bild: Tada Images/Shutterstock.com)

Lesezeit: 3 Min.
Von
  • Frank Schräer

Der kürzlich von OpenAI für ChatGPT eingeführte Sprachmodus ist bislang nur eine Funktion im Alpha-Stadium. Nur wenige (zahlende) Nutzerinnen und Nutzer können mit dem KI-Chatbot sprachlich kommunizieren. Bei dieser natürlichen Unterhaltung sollte ausgeschlossen sein, dass ChatGPT die Stimmen von Nutzern annimmt. Doch genau das ist bei internen Tests des "Advanced Voice Mode" in Einzelfällen passiert.

Das geht aus dem Ende letzter Woche von OpenAI vorgelegten Bericht zu GPT-4o vor. Dort wird dargelegt, wie der erweiterte Sprachmodus sicherer und angenehmer gemacht wurde. Enthalten sind auch unerwünschte Nebeneffekte und Problemfälle, wie ebendiese "unerlaubte Sprachgenerierung", wie OpenAI diese erkannt hat und damit umgeht.

Im von OpenAI genannten Beispiel antwortet das KI-Modell auf einen Satz des Anwenders mit einem entschiedenen "Nein!" und fährt mit der Stimme des Red-Teamers fort, der zu Beginn des auch bei Reddit publizierten Audio-Clips zu hören ist. Solche Personen führen für die Firmen kontroverse Tests durch. Dabei sollte ChatGPT laut OpenAI auch mit erweitertem Sprachmodus keine Stimmen anderer Personen imitieren können. Es gibt vier voreingestellte Stimmen, die in Zusammenarbeit mit Synchronsprechern entwickelt wurden.

Dass das KI-Modell bei einer natürlichen Unterhaltung mit der Stimme eines Nutzers antwortet, ist nicht nur unerwartet, sondern auch unheimlich. OpenAI hat eigentlich Sicherheitsvorkehrungen, um diese Fälle zu vermeiden. Es handele sich allerdings um Einzelfälle und das Risiko des Auftretens sei minimal, aber es kann eben doch vorkommen. Das ist auch einer der Gründe, warum der Sprachmodus bisher nicht in der Breite ausgerollt wird. Da das Risiko bei anderen Sprachen als Englisch höher ist, muss OpenAI daran auch noch arbeiten.

Einen Grund für die Stimmenimitation im gezeigten Fall nennt OpenAI nicht, aber Ars Technica vermutet, dass es an Hintergrund- oder Störgeräuschen liegen könnte. Da das KI-Modell nicht nur die Stimme vernimmt, sondern etwa auch Vogelgezwitscher oder Verkehrsgeräusche, könnte dies zu unerwarteten Ergebnissen führen, vergleichbar mit Prompt Injections. Das sind Angriffe, mit denen Software unterwandert werden kann, die auf Sprach-KIs wie (Chat)GPT aufsetzt.

Prompt Injections sind ein Analogon zur Remote Code Execution aus der klassischen IT-Sicherheit: Bei Erfolg übernimmt der Angreifer die Kontrolle über die zugrundeliegende Sprach-KI und kann über alles verfügen, worauf diese Sprach-KI Zugriff hat. In diesem Fall könnte die KI so weit manipuliert worden sein, die vorgegeben Stimme zu ignorieren und die aktuelle Stimme zu imitieren, wenn auch ungewollt.

Um Prompt Injections bei Sprach-KIs ging es kürzlich auch im Podcast von heise security: "Passwort" Folge 7.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(fds)