OpenAI gibt ChatGPT Mund und Augen

Eine neue Version des Chatbots ChatGPT von OpenAI erhält Sprach- und Bildfunktionen. Es lassen sich Gespräche führen und Probleme anhand von Fotos lösen.

In Pocket speichern vorlesen Druckansicht 54 Kommentare lesen
Germany,-,January,24,2023:,Openai,Logo,On,The,Phone,And

(Bild: Camilo Concha / Shutterstock.com)

Lesezeit: 4 Min.
Von
  • Andreas Knobloch
Inhaltsverzeichnis

ChatGPT kann nun sprechen. OpenAI hat am Montag ein Update seines KI-Chatbots veröffentlicht, der gesprochene Unterhaltungen führen und mittels Bildern interagieren kann. Wie bei Amazons Alexa, Apples Siri und anderen digitalen Sprachassistenten können die Nutzerinnen und Nutzer mit ChatGPT sprechen und der Bot wird ihnen antworten.

Die Sprachfunktion "öffnet die Türen zu vielen kreativen und auf Barrierefreiheit ausgerichteten Anwendungen", schreibt OpenAI in einem Blog-Post am Montag, in dem die neuen Funktionen vorgestellt werden.

Mit der neuen Sprachfunktion von ChatGPT lassen sich Gespräche unterwegs führen, "fordern Sie eine Gute-Nacht-Geschichte für Ihre Familie an oder schlichten Sie eine Diskussion am Esstisch", nennt OpenAI einige Anwendungsbeispiele.

OpenAI argumentiert, dass die synthetischen Stimmen von ChatGPT natürlicher sind als andere, die bei gängigen digitalen Sprachassistenten verwendet werden. Zur Auswahl stehen fünf verschiedene Optionen, darunter auch männliche und weibliche Stimmen. Die neue Sprachfunktion basiert demnach auf einem neuen Text-to-Speech-Modell, das in der Lage ist, aus Text und ein paar Sekunden Sprachbeispielen eine menschenähnliche Stimme zu erzeugen. Zum Erstellen der Stimmen hat OpenAI nach eigenen Angaben mit professionellen Synchronsprechern zusammengearbeitet.

Die Technologie, die dahinter steckt, wird laut OpenAI auch von Spotify für die Pilotphase seiner Funktion Voice Translation verwendet, damit die Podcaster der Plattform ihre Inhalte in verschiedene Sprachen mit der eigenen Stimme übersetzen können.

Wie andere digitale Assistenten auch, hat ChatGPT aber Probleme mit Homonymen, so die US-Tageszeitung New York Times. Das Blatt fragte den neuen ChatGPT , wie man "Gym" buchstabiert; die Antwort lautete: "J-I-M". Aber einer der Vorteile eines Chatbots wie ChatGPT sei, dass er sich selbst korrigieren könne, so die Zeitung. Auf den Einwurf: "Nein, die andere Art von Fitnessstudio", antwortete der Bot: "Ah, jetzt verstehe ich, was du meinst. Der Ort, an dem die Leute trainieren, wird G-Y-M buchstabiert."

Nutzerinnen und Nutzer von ChatGPT können sich künftig aber nicht nur mit dem Chatbot unterhalten, sondern beispielsweise auch Fotos von Dingen in ihrer Umgebung machen und den Chatbot bitten, eine Fehlersuche durchzuführen, warum beispielsweise der Grill nicht anspringt. Wenn ein Foto, eine Tabelle oder ein Diagramm vorliegt, kann ChatGPT eine detaillierte Beschreibung des Bildes liefern und Fragen zu seinem Inhalt beantworten. Oder die Nutzerinnen und Nutzer können zum Beispiel ein Foto vom Inneren ihres Kühlschranks hochladen, und der Chatbot kann ihnen eine Liste von Gerichten vorschlagen, die sie mit den vorhandenen Zutaten zubereiten können.

Der Erfolg von ChatGPT der Microsoft-Tochter OpenAI hat einen Hype um KI ausgelöst. Die sich schnell verbessernde KI-Technologie kann Dokumente zusammenfassen, Computercodes schreiben, verständliche Sprache und sogar Fotos und Videos produzieren, indem sie riesige Datenmengen verarbeitet und synthetisiert. Immer mehr Unternehmen setzen auf den Einsatz von KI und versuchen, ihre eigenen auf generativer KI basierenden Anwendungen auf den Markt bringen.

Mit der neuen Version von ChatGPT geht OpenAI über konkurrierende Chatbots wie Google Bard hinaus und konkurriert gleichzeitig mit Technologien wie Alexa und Siri. Die Sprachassistenten von Amazon und Apple bieten seit langem Möglichkeiten zur Interaktion mit Smartphones, Laptops und anderen Geräten durch gesprochene Worte. Chatbots wie ChatGPT und Google Bard verfügen jedoch über leistungsfähigere Sprachfähigkeiten und sind in der Lage, sofort E-Mails, Gedichte oder Hausarbeiten zu schreiben und sich zu fast jedem Thema zu äußern, das ihnen zugeworfen wird. Mit dem ChatGPT-Update hat OpenAI nun die beiden Kommunikationsmethoden in gewisser Weise kombiniert.

Die neuen Sprach- und Bildfunktionen in ChatGPT werden laut OpenAI in den nächsten zwei Wochen für Abonnentinnen und Abonnenten der Plus- und Enterprise-Tarife freigeschalten. Andere Benutzergruppen sollen folgen. Die Sprachfunktion wird jedoch zunächst nur auf iOS, also iPhones und iPads, und Android-Geräten mit Sprache verfügbar sein; die Bilderfunktion dagegen auf allen Plattformen.

(akn)