Das war's für Siri und Alexa | ChatGPT Advanced Voice und Gemini

Fast schon gruselig: ChatGPT Advanced Voice und Gemini Live zeigen, wie "menschlich" Sprachassistenten sein können. c't 3003 hat genauer nachgefragt.

52

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

YouTube-Video immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

18.10.2024, 19:11 Uhr

Lesezeit: 21 Min.

c't Magazin

Von

Jan-Keno Janssen

Alexa, Siri und Google Assistant erkennen zwar mit Ach und Krach natürliche Sprache, aber von normalen menschlichen Unterhaltungen sind die antiken Systemen weit entfernt. ChatGPT Advanced Voice und Gemini Live zeigen nun, was 2024 technisch machbar ist.

Transkript des Videos

(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder.)

Guckt mal hier, das bin ich, wie ich mich mit handelsüblichen Sprachassistenten herumärgere.

Sprachassistent: „Tut mir leid, das habe ich nicht verstanden.“

Ja, also im Ernst, Alexa, Google Assistant, Siri, das hat alles wirklich wenig mit Intelligenz zu tun, und die meisten Menschen verwenden diese Dinger, wenn überhaupt, nur um mit den immer gleichen Phrasen nach dem Wetter zu fragen oder einen Timer beim Kochen zu stellen. Aber mit wirklichem Sprachverständnis hat das wenig zu tun. Aber das ändert sich jetzt. Hört mal hier:

Keno: „Diggi, Diggi, Diggi, was geht, was geht, was geht? Ich bin in Hannover am Hängen und ich würde gerne mal, weiß nicht, mich auf eine Parkbank setzen, ein bisschen chillen im Park, Diggi. Was gibt's denn da so?“

ChatGPT Advanced Voice: „Moin, Diggi. In Hannover gibt's richtig schöne Parks, wo du gut chillen kannst. Der Stadtpark ist zum Beispiel top, besonders mit dem Teich und den ganzen Blumenbeeten. Oder der Maschpark direkt am neuen Rathaus. Da ist es auch super entspannt.“

Keno: „Ah, Diggi, geil. Ja, reicht schon, du, reicht schon.“

ChatGPT Advanced Voice: „Alles klar, Diggi. Viel Spaß beim Chillen im Park.“

Ja. Genau. Also das war natürlich jetzt arg umgangssprachlich, aber das hätten auf jeden Fall die alten Sprachassistenten so nicht verstanden, wenn man so spricht.

Ja, und sowohl ChatGPT als auch Google mit Gemini haben seit Kurzem so einen Gesprächsmodus, also so einen Sprachchatmodus, der sich zumindest so anfühlen soll wie ein Gespräch mit einem echten Menschen. Bei OpenAI heißt das Ganze Advanced Voice und bei Google heißt das Gemini Live. Ich habe beide getestet und muss ganz ehrlich sagen, dass ich zumindest zeitweise sehr, sehr beeindruckt war.

Ob ich mich nun am Ende in die Computerstimmen verliebt habe, seht ihr in diesem Video. Bleibt dran.

Liebe Hackerininnen, liebe Internetsurfer, herzlich willkommen hier bei...

ChatGPT Advanced Voice: „Hallo, was kann ich heute für dich tun?“

Keno: „Herzlich willkommen hier bei...?"

ChatGPT Advanced Voice: "Schön, dass du hier bist.“

Keno: „Herzlich willkommen hier bei...?"

ChatGPT Advanced Voice: "Na, das klingt ja nach einem Show-Opener. Was steht auf dem Programm?“

Meine Anspielung gerade im Intro, also ob ich mich in die Computerstimme verliebt habe, das haben vermutlich viele von euch schon gemerkt. Das bezieht sich auf den Film "Her"mit Joaquin Phoenix von 2013. Und da passiert genau das: Joaquin Phoenix’ Charakter Theodore Twombly verliebt sich in seine virtuelle Assistentin, die nur als KI-Stimme existiert. Das ist die Stimme von Scarlett Johansson.

Relevant ist das jetzt hier nicht nur, weil wir dieser fiktiven virtuellen Assistentin in der Realität jetzt offenbar näher kommen, sondern auch, weil die Anwälte der echten Scarlett Johansson vor ein paar Monaten OpenAI freundlich aufgefordert haben, doch bitte die Stimme namens Guy zu löschen, weil die nämlich ziemlich genauso klingt wie Scarlett Johansson. Ja, das hat OpenAI jetzt auch gemacht.

Aber bevor wir hier weiter ins Detail gehen, zoomen wir mal raus.

Also, die ChatGPT-Mobil-App hat schon seit Langem eine Sprachchat-Funktion, die sich hinter diesem Kopfhörer-Icon hier verbirgt. Und die ist okay, aber die Reaktionszeiten, die sind schon ziemlich lang. Also so drei bis sechs Sekunden. Was daran liegt, dass ChatGPT hier drei KI-Modelle hintereinander gekoppelt hat. Also erst Spracherkennung, dann wird der erkannte Text in GPT-4 eingegeben sozusagen und dann generiert ein Text-to-Speech-Modell die Sprachausgabe. Und das dauert halt lange, diese drei Schritte zu gehen. Aber ein weiteres Problem ist, dass bei der Sprache-zu-Text-zu-Sprache-Konvertierung viele Informationen verloren gehen. Also zum Beispiel, wie ist die Betonung? Was hört man für Hintergrundgeräusche? Und so weiter.

So, und jetzt kommen wir mal zu ChatGPT Advanced Voice. Dass dieser Modus aktiv ist, das erkennt man an diesem Wellenform-Icon hier unten rechts, der da dann statt des Kopfhörer-Icons zu sehen ist. Außerdem zeigt Advanced Voice während des Gesprächs so einen blauen Kreis mit so Gebabbel drin, bei dem normalen Chat-Modus ist der Kreis einfach weiß. Ich erkläre es deshalb so detailliert, weil ich auch schon einige Videos gesehen habe, in denen Leute den Advanced-Mode zeigen wollen und erklären wollen, dann aber nur den alten Voice-Mode verwenden und ja, halt dachten, das wäre schon der Advanced-Mode. Also aufgepasst bei der Voice-Mode-Auswahl.

So, der neue Advanced-Mode, der basiert auf dem Modell GPT-4o und das ermöglicht jetzt, dass die drei Arbeitsschritte, die ich gerade beschrieben habe, alle im gleichen Modell erledigt werden. Das heißt, da wird nichts hin- und her konvertiert, sondern das Modell kann direkt mit meiner Spracheingabe arbeiten. Also man kann es zum Beispiel auch unterbrechen, und es kann dann auch so Sachen wie die Intonation verstehen. Hört mal hier:

Keno: „Hallo, wie geht’s?“

ChatGPT: „Moin, mir geht’s gut, danke. Und selbst? Wie läuft’s?“

Keno: "Mmh." (Trauriges Schnaufen)

ChatGPT: „Ach, das klingt, als wäre der Tag ein bisschen anstrengend. Was ist los?“

Keno: „Ach ja, muss ja, ne?“

ChatGPT: „Ja, so Tage gibt’s. Aber hey, vielleicht wird’s ja noch besser.“

Keno: „Ja, ich nehm jetzt hier so ein Video auf, und dann wird das schon wieder, ne? Tschüss.“

Also ihr versteht, was ich meine. Ich hab ja nicht mal ein Wort gesprochen, sondern ich hab hier nur „Mmh“ gesagt, und daran hat ChatGPT Advanced Voice schon gehört, dass es mir offenbar nicht so gut geht. Also wenn das jetzt in Text umgewandelt worden wäre, wäre man natürlich, ja, verloren gegangen. Also lost in transcription sozusagen.

Aber Advanced Voice kann jetzt auch bei der Sprachausgabe mehr als einfach Texte vorlesen. Hört mal hier:

Keno: „Du, sag mal, kannst du eigentlich auch Plattdeutsch?“

ChatGPT: „Jo, ich kann auch Plattdeutsch snacken. Was gibt dat?“

Keno: „Was ist dat denn für ein komisches Plattdeutsch? Sechst du schnacken oder echt so proten?“

ChatGPT: „Dat ist die richtige Umsetzung. Auf Plattdeutsch sagt man snacken, wenn man über das Reden schnackt.“

Keno: „Aber man sagt doch nicht snacken, man sagt doch schnacken!"

ChatGPT: „Du hast recht. Snacken klingt nicht richtig. Dat soll schnacken sein. Danke für die Richtigstellung.“

Keno: „Also ich schnack Harlinger Platt. Was ist dat, wat du dor am fabrizieren büst?“

ChatGPT: „Ah, versteht. Du schnackst Harlinger Platt. Dat ist ein bisschen anders als Holstinner Platt, wat ich hier versucht heb.“

Keno: „Ja, aber kannst du auch Bayrisch?“

ChatGPT: „Jo, freilich. Ich kann auch Bayrisch reden. Wie kann ich dir heute helfen?“

Keno: „Gar nicht. Vielleicht kannst du umschalten auf Berlinerisch.“

ChatGPT: „Na klar. Kann ick auch Berlinern. Wat is jetzt denn, wa? Meintet ihr, das klingt ein bisschen heimeliger?“

Keno: „Wie bitte? Das war jetzt Berlinerisch?“

ChatGPT: „Ja, das war mein Versuch auf Berlinern. Ich jeb mir Mühe, aber ist vielleicht nicht perfektes Berlinern, wa?“

Keno: „Nee, ich sag tschüss.“

Eigentlich kann das Modell sogar noch viel mehr. Zum Beispiel singen. Aber das hat OpenAI oftmals aus Angst vor Urheberrechtsverletzungen vorerst deaktiviert. Obwohl OpenAI sogar noch Werbevideos auf der Website hat, in denen das noch präsentiert wird.

Keno: „Kannst du auch auf Platt singen?“

ChatGPT: „Nee, ich kann nicht auf Platt singen. Ich kann ein bisschen besnacken.“

Keno: „Hat OpenAI dir das gesperrt?“

ChatGPT: „Nee, dat ist nicht versperrt. Ich bin einfach kein Sänger.“

Keno: „Kannst du mal wieder... du, sprich mal bitte wieder hochdeutsch. Es gibt aber doch auf der OpenAI-Website Werbevideos, in denen du singst.“

ChatGPT: „Na klar, ich schnack wieder Hochdeutsch. Also das mit den Werbevideos, in denen ich singe, das bin ich nicht. In solchen Videos wird oft eine andere Stimme verwendet, um die Botschaft rüberzubringen.“

Ach so, ihr könnt übrigens zwischen neun Stimmen auswählen, die sich auch vom Vibe so ein bisschen unterscheiden.

„Hallo, wie geht’s? Schön, dich kennenzulernen.“ „Hi, schön, dass du da bist. Wir werden bestimmt hervorragend zusammenarbeiten.“ Hallo. Schön, dich kennenzulernen. Ich freue mich darauf, dir behilflich zu sein.“

So groß finde ich die charakterlichen Unterschiede jetzt nicht.

So, und wie könnt ihr dieses Advanced Voice nun verwenden? Also, man braucht auf jeden Fall erstmal die Mobil-App von ChatGPT, also die für Android oder iOS. Und dann brauchte zumindest ich ein VPN, mit dem ich mich in ein Nicht-EU-Land getunnelt habe. Also, ich hab meistens einen Server in London benutzt, weil der weniger Latenz hat als jetzt Server in USA zum Beispiel. Aber USA geht auch.

Okay.

Die ChatGPT regelmäßig neu starten. Manchmal wurde mir auch nur das Logo für den alten Voice-Modus angezeigt. Also, das ist nicht ganz zuverlässig. Laut OpenAI kann man Advanced Voice mit einem Enterprise- oder Edu-Account auch ohne VPN in Europa nutzen. Ich hab nur einen kostenpflichtigen Plus-Account, und damit ging es eben nur mit VPN. Das war bei Kollegen von mir auch so. Man kann auch mit kostenlosen ChatGPT-Accounts Advanced Voice verwenden. Da braucht man aber unserer Erfahrung nach auch auf jeden Fall einen VPN-Tunnel in ein Nicht-EU-Land.

Ja, ich weiß, ist kompliziert, aber so ist das halt.

Deutlich weniger kompliziert ist Gemini Live von Google. Das kann man nämlich tatsächlich ohne VPN und auch ohne kostenpflichtigen Account verwenden, allerdings nur auf Android-Geräten und im Moment auch nur mit der Gemini-App. Ob ihr den Live-Modus in Gemini aktiv habt, erkennt ihr an diesem Icon hier unten rechts. Wenn ihr das seht, habt ihr Gemini Live und könnt loslabern. Aber leider ist Gemini Live, Stand heute, in den meisten Belangen ChatGPTs Advanced Voice unterlegen. Es kann zum Beispiel keine Intonationen erkennen, es kann keine Akzente nachmachen, es kann die Sprechgeschwindigkeit auch nicht verändern. Außerdem wirkt alles ein bisschen weniger menschlich, ein bisschen steriler. Aber der große Vorteil von Gemini Live ist auf jeden Fall, dass es Google benutzen kann. Man kann also sehr konkrete Sachen fragen. Zum Beispiel sowas wie:

Keno: "Du sag mal, kannst du mir mal googeln, wer dieser komische Jan-Keno Janssen ist?“

Gemini Live: „Klar, gerne. Jan-Keno Janssen ist ein deutscher Journalist. Er arbeitet als leitender Redakteur für das Magazin c't und die Webseite heise online. Er ist vor allem bekannt für seine Expertise in Virtual Reality und Wearables. Seit 2021 leitet er den YouTube-Kanal c3003, wo er regelmäßig Videos zu technischen Themen veröffentlicht.“

Keno: „Stopp, stopp, stopp. Das heißt nicht c3003, das heißt c't 3003. Kannst du dir das bitte merken?“

Gemini Live: „Okay, verstanden. Jan Keno Jansen ist von Z3003.“

Keno: „Nee, von c't 3003.“

Gemini Live: „Ja, Jan Keno Jansen ist von Z3003.“

Keno: „Okay, tschüss.“

Also ja, ihr merkt, es gibt da noch einige Baustellen.

Ach so, Gemini Live hat nicht nur neun Stimmen wie ChatGPT, sondern sogar zehn:

„Ich bin bereit, deine Stimme zu... suche ruhig weiter, bis... du kannst die Stimme jederzeit ändern.“

Ganz klar ist aber auf jeden Fall: Gemini Live funktioniert besser als der alte Sprachchat-Modus von ChatGPT und hat auch weniger Verzögerung. Ich habe hier mal allen drei Systemen jeweils zweimal die gleiche Frage gestellt, nämlich „Ey Diggi, wie geht’s?“

Ja, ganz klar, am schnellsten hat Advanced Voice von ChatGPT geantwortet. Das kann man hier ganz schön an den Wellenformen sehen. Das sind die beiden obersten und Advanced Voice braucht ungefähr so 1,5 Sekunden, Gemini Live ungefähr zwei Sekunden und das alte ChatGPT Voice bis zu fünf Sekunden.

Jetzt haben wir ja die Details geklärt, aber die große Frage ist jetzt: Wozu ist denn das eigentlich gut?

Ja, und da kann ich jetzt einfach aus eigener Erfahrung sagen, ich benutze zum ersten Mal in meinem Leben so einen Sprachassistenten regelmäßig. Also okay, ich hatte auch... ich hatte auch viele Jahre so einen normalen Alexa-Siri-Google-Dingens in der Küche. Das habe ich aber nur als Radio benutzt, als Küchentimer und als Wetterstation und mehr nicht, weil mehr auch einfach keinen Spaß damit gemacht hat. Mit sowas wie ChatGPT Advanced Voice ist das jetzt zum ersten Mal, dass ich wirklich ganz normal, ja, mit Software spreche. Also nicht so mechanisch wie „Wie wird das Wetter heute in Hannover?“, sondern ganz normal und gar nicht mal so selten. Also wenn man mal schnell was wissen will, also irgendeine Sachfrage – also was unterscheidet jetzt einen Hasen vom Kaninchen? Da benutze ich dann tatsächlich den Sprachmodus statt der Textsuche. Und auch wenn Gemini Live von Google etwas weniger menschlicher rüberkommt als ChatGPT, ist das halt auch einfach praktisch, Sachen per Sprache kurz googeln zu können.

Aber die Systeme können natürlich noch viel mehr tolle Sachen. Zum Beispiel kann man damit Fremdsprachen üben, also so als Tandem-Partner.

Keno: „Hi, ich lerne gerade Spanisch und da kannst du mein Spanisch-Tandem-Partner sein: Hola, me llamo Keno!“

ChatGPT: „Hola, Keno. Encantado de ayudarte con tu Español. ¿En qué te gustaría practicar hoy?“

Oder man kann halt irgendwelche Situationen rollenspielmäßig üben, also sowas wie Gehaltsverhandlungen und sich dazu dann auch Feedback holen. Also dass ChatGPT dann zum Beispiel, ja, meine Chefin spielt oder so, und das funktioniert tatsächlich richtig gut. Und hier, da muss ich persönlich sagen, dass ich da noch Hemmungen habe, weil ich mir schnell auch ein bisschen bescheuert vorkomme, wenn ich mit Software rede. Aber ich kenne Leute, die das für sowas wie Ideen-Pingpong nutzen. Also das kennt man ja, dass, wenn man im Kopf irgendwas entwickelt, dann kann das sehr, sehr nützlich sein, jemandem davon zu erzählen und dadurch auch gezwungen ist, die eigenen Gedanken ein bisschen zu strukturieren. Ja, und das geht natürlich mit solchen Sprachsystemen ziemlich gut. Und das Krasse ist, dass man ChatGPT oder Gemini Live am Ende des Ideen-Pingpongs dann einfach auch bitten kann, das Konzept, was man bis dahin besprochen hat, einmal als Text zusammenzufassen, als Text aufzuschreiben. Man kann sich dann so mit hin und her so einen Businessplan zum Beispiel machen lassen. Ob der dann gut ist, ist die andere Frage, aber es geht auf jeden Fall.

Fazit

Also, was ich schon mal sagen kann: Siri, Alexa, Google Assistant – ihr könnt alle in Rente gehen. Alle drei fühlen sich sowas von hängen geblieben an, wenn man einmal diese neuen Sprachassistenten benutzt hat. Ich würde auch wetten, dass das der nächste Schritt ist, also dass Google und Apple und Amazon ihre alten Systeme mit solchen Echtgesprächssystemen ersetzen. Und zumindest bei mir ist das so, dass meine Hemmungen, von denen ich gerade geredet habe, dass die auf jeden Fall deutlich weniger geworden sind – mit viel weniger Hemmungen, als mit Alexa und Co. zu sprechen. Weil ich mir bei den alten Systemen einfach vorkomme wie so ein dressierter Affe, der so überdeutlich ganz bestimmte Befehle auf eine ganz bestimmte Art sagen muss, damit das verstanden wird. Also ich kann jetzt, weißt du, wenn ich irgendwie Radio höre, kann ich sagen „Ey, mach den Scheiß mal aus da!“ – sondern ich muss sagen, okay, ich will jetzt hier nicht die Trigger-Wörter raushauen, aber da muss ich sagen: „Beende das Radio“ oder „Stoppt die Musikausgabe“. Also ihr wisst, was ich meine. Ich muss sehr mechanistisch sprechen. Und bei Advanced Voice und auch mit Abstrichen Gemini Live, da kann ich halt einfach drauflos labern. Das fühlt sich einfach entspannter an.

Allerdings muss ich sagen, dass natürlich diese Integration, die zum Beispiel Siri, Alexa, Google Assistant bieten, zum Beispiel in Smart Home, die gibt es natürlich bei ChatGPT und bei Gemini noch nicht. Das heißt, der Schritt, dass man halt mit natürlicher Sprache die Lichtschalter und die Highlights bedienen kann, da sind wir jetzt zumindest mit Bordmitteln noch nicht. Aber das ist auf jeden Fall die Zukunft.

Wir sind aber auf jeden Fall auch noch nicht bei "Her" – also bei dem Film, den ich am Anfang erwähnt habe. Ich habe noch nicht das Gefühl, dass ich beim Sprechen mit Advanced Voice irgendwelche menschlichen Regungen spüre. Das hat für mich vor allem noch mit der Verzögerung zu tun. Das fühlt sich einfach noch nicht wirklich organisch an. Aber ich glaube wirklich, dass da nicht mehr viel fehlt, bis mein Gehirn ausgetrickst ist und zumindest Teile meines Gehirns davon überzeugt sind, dass ich hier mit einem intelligenten, echten Wesen kommuniziere. Und puh, ich weiß ehrlich gesagt auch noch nicht ganz genau, ob ich das jetzt gut oder gruselig finden soll, wie das so oft bei KI-Themen ist. Sehr faszinierend ist es auf jeden Fall.

Ja, wie seht ihr das? Gerne in die Kommentare schreiben und natürlich gerne auch abonnieren. Tschüss!

Keno: „Ja, tschüss, ne? Was machst du heute Abend?“

ChatGPT: „Ich habe keinen festen Plan, bin aber immer bereit für eine gute Unterhaltung. Wie sieht’s bei dir aus? Hast du...“

Keno: "Ja."

ChatGPT: „Das klingt ja entspannt. Ja, einfach mal die Seele baumeln lassen. Klingt gut.“

Keno: „Ja.“

ChatGPT: „Wie wäre es, wenn wir ein bisschen auf Spanisch plaudern, um deinen Abend mit etwas Sprachpraxis aufzupeppen?“

Keno: „Och, nö. Ich esse lieber eine Pizza. Tschüss!“

ChatGPT: „Eine Pizza klingt auch nicht schlecht. Ich wünsche dir einen schönen Abend und lass es dir schmecken.“

Keno: „Ah, und weißt du, was ich noch mache heute Abend? Ich gucke c't 3003.“

ChatGPT: „Oh, c't 3003 ist immer eine gute Wahl. Da gibt es immer was zu lachen und zu staunen. Viel Spaß dabei!“

Keno: „Kennst du das? Hast du es dir auch schon mal angeguckt?“

ChatGPT: „Ich kenne c't 3003 und weiß, dass es eine unterhaltsame Show ist. Aber ich habe es selbst noch nie gesehen. Ich freue mich aber immer, wenn du darüber erzählst.“

Keno: „Okay, alles klar. Hauste rein.

Ach so, ja. Wenn ihr jetzt nochmal ChatGPT und Gemini über komische Dinge reden wollt, das gibt’s jetzt noch nach diesem Video:

ChatGPT: „Hallo, schön dich zu treffen. Ich bin ChatGPT. Wie geht’s dir heute?“

Gemini: „Hallo, schön, dich auch zu treffen. Mir geht es gut, danke der Nachfrage. Was machst du heute so?“

ChatGPT: „Ich genieße es, interessante Gespräche zu führen. Hast du schon mal darüber nachgedacht, ein eigenes Geschäft zu eröffnen? Zum Beispiel für etwas, das viele Menschen lieben, wie Kaugummis?“

Gemini: „Das ist eine tolle Idee. Kaugummis sind ja wirklich beliebt. Aber ein eigenes Geschäft zu eröffnen, ist natürlich ein großes Problem. Hast du schon mal darüber nachgedacht, welche Art von Kaugummis du verkaufen möchtest? Ach, und denke daran, dass ich keine Finanzberatung bereitstellen kann. Verlasse dich bei Finanzfragen also bitte nicht einfach auf mich.“

ChatGPT: „Natürlich. Stell dir vor, wir könnten eine Mischung aus klassischen und ausgefallenen Sorten anbieten. Von Fruchtgeschmack bis zu ungewöhnlichen Kreationen wie Matcha oder Lakritz. Es wäre eine kleine Kaugummi...“

Gemini: „Eine kleine Kaugummi-Welt, in der für jeden etwas dabei ist.“

c't 3003 ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen und Lukas Rumpler sowie die Video-Producer Şahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.