Perplexity Assistant: Endlich ein echter Sprachassistent? | c’t 3003

Der Perplexity Assistant versteht natĂĽrliche Sprache und fĂĽhrt auch komplexe Aufgaben, wie eine Restaurantreservierung, aus. c't 3003 hat es ausprobiert.

vorlesen Druckansicht 22 Kommentare lesen

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 19 Min.
Inhaltsverzeichnis

Perplexity Assistant verändert die Art, wie wir mit unseren Smartphones interagieren. Anders als klassische Sprachassistenten versteht er natürliche Sprache und kann direkt mit Apps und Diensten kommunizieren. c't 3003 testet, wie einfach Restaurantreservierungen, Musikwiedergabe oder Kalendereinträge per Sprachbefehl funktionieren. Besonders auf Android-Geräten überzeugt der Assistant mit tiefer Integration ins System – er kann sogar Benachrichtigungen zusammenfassen und als Faktenchecker für Bildschirminhalte dienen. Die Kehrseite: Perplexity sammelt Nutzerdaten für personalisierte Werbung.

(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder.)

Guckt mal hier, ich sag einfach an mein Handy: "Gib mir mal bitte eine Reservierung in einem italienischen Restaurant mit guten Bewertungen in meiner Nähe für morgen 19 Uhr, vier Personen" und zack, OpenTable offen, genau mit dem Datum, genau mit den Angaben. Ich muss einfach nur noch OK drücken und es ist reserviert. Und ich kann dann direkt sagen: "Schick Hanna, Lukas, Sahin und Pascal bitte eine Mail mit den Infos, wann und wo das Essen stattfindet." Ich habe eine E-Mail vorbereitet und die Mail-App für dich geöffnet. Du kannst die Nachricht jetzt überprüfen und dann senden. Viel Spaß beim Essen. Ja, sehr gut, danke schön. Zack, fertig.

Oh, ich merke gerade, das hätten fünf Personen sein müssen. Naja, kann man schnell klar machen. Das geht auf jeden Fall alles mit natürlicher Sprache, mit Perplexity Assistant, sowohl auf Android-Telefonen als auch auf iPhones. Besonders beeindruckend ist, wie gut das funktioniert, vor allem im Vergleich zu den Oldschool-persönlichen Assistenten wie Google Assistant, Apple Siri und Amazon Alexa. Die fühlen sich inzwischen wirklich total aus der Zeit gefallen an. "Okay, Google, wann sind in Niedersachsen Osterferien?" "Auf der Website mk.niedersachsen.de steht dazu folgendes: 8.04 Uhr, D.I.E. 23.04, Tag nach Himmelfahrt 2030, Frau." Mhm. Was Perplexity so gut kann und wo vielleicht noch der Haken ist, alles in diesem Video. Bleibt dran!

Liebe Hackerinnen, liebe Internetsurfer, herzlich willkommen hier bei...

Wir haben letztes Jahr schon ein Video gemacht zu den Live-Sprachversionen von ChatGPT und Google Gemini. Bei ChatGPT heißt es ja Advanced Voice Mode und bei Gemini heißt es Live. Die waren auf jeden Fall schon ein riesen Sprung im Vergleich zu Alexa, Siri und Google Assistant, vor allem was das Sprachverständnis angeht. Ich finde da ja immer am beeindruckendsten, dass ChatGPT sogar versucht hat, Plattdeutsch zu sprechen mit mir. "Also ich spreche Harlingerplatt, was du da am Fabriken bist." Kannst du auch Bayrisch? "Jo, freilich." Oder sogar nur mit Geräuschen kommunizieren kannst. "Ach, das klingt als wäre der Tag ein bisschen anstrengend. Was ist los?" "Ach ja, muss ja." "Ja, so Tage gibt's. Aber hey, vielleicht wird's ja noch besser."

In Bezug auf Sprachverständnis ist ChatGPT Advanced Voice wirklich am fortschrittlichsten. Aber der kann halt nichts. Der kann nicht im Netz suchen. Der kann nicht mit irgendwelchen Funktionen auf meinem Handy interagieren. Der kann einfach nur aus seinem großen Sprachmodell irgendwelche Sachen labern. Google Gemini Live kann ein bisschen mehr, hat aber leider schlechteres Sprachverständnis. Und über Apples KI-Assistentenversuche wollen wir vielleicht gar nicht reden – das ist bislang ein ziemlicher Totalausfall.

In diesem Video zeige ich euch, wie jetzt ausgerechnet Perplexity, also ein Drittanbieter, den Riesenkonzernen Google und Apple zeigt, wo der Hammer hängt. Also das sind die, die die Handys gebaut haben, die also Vollzugriffe haben auf alles. Ich persönlich finde auf jeden Fall Perplexity von allen Sprachassistenten am praktischsten. Und der ist kostenlos und man kann den sogar auf günstigen Mittelklasse-Android-Geräten installieren, da sogar als Standardassistenten aktivieren, also damit zum Beispiel Google Assistant ersetzen. Und auf iPhones kann man Perplexity auf den Action-Button legen – muss man nur draufdrücken und dann hört der einem zu.

Achso, und am Ende des Videos seht ihr noch, wie Perplexity-Assistent und Gemini Menschen cosplayen und sich gegenseitig davon ĂĽberzeugen, Menschen zu sein oder so. Ich finde es auf jeden Fall ziemlich funny.

Nochmal ganz kurz für alle, die das nicht kennen: Perplexity ist eine sehr fähige KI-Suchmaschine, die quasi für euch googelt und die Ergebnisse dann für euch aufbereitet. Ihr müsst die einzelnen Treffer gar nicht mehr anklicken, sondern kriegt direkt eure Antwort auf die Frage. Ich persönlich benutze Perplexity inzwischen nahezu täglich und ich weiß, dass das ziemlich vielen anderen auch so geht. Google hat das wohl auch gemerkt. Die liefern per Default auch bei sehr vielen Suchanfragen jetzt so eine KI-Antwort aus, die auch ziemlich gut ist. Da bin ich mal gespannt, ob Perplexity seinen Vorsprung halten kann. Das wird auf jeden Fall interessant. Aber das nur am Rande – es geht hier ja um den Sprachassistenten.

Perplexity hat schon länger einen Sprachmodus, so wie eigentlich alle KI-Systeme, indem man einfach per Push-to-Talk etwas einspricht und die Antworten dann als Text erscheinen. Die Antworten liest Perplexity dann vor. Aber dieser Modus ist ja kein richtiger Sprachassistent, sondern halt nur die Audio-Version von der Text-Perplexity-Suche. Von einem Sprachassistenten würde ich erwarten, dass ich damit sprechen kann wie mit Menschen und nicht so betont deutlich: "Bitte mach das, bitte mach dies", sondern einfach so: "Ey, mach mal dies". Und vor allem auch ohne Sprachkommandos manuell absenden zu müssen.

Außerdem muss für mich ein Sprachassistent in der Lage sein, Umgangssprache zu verstehen – also dass der sich an mich anpasst und ich mich nicht an ihn. Dass der Sprachassistent sich auch an meinen Vibe anpasst, ebenso wie ChatGPT Advanced Voice das macht oder mit Einschränkungen auch Gemini Live. "Oh, Perplexity. Mein Katalog. Der war heute so fies zu mir." "Oh, das klingt nicht so schön. Katzen können manchmal ihre Launen haben. Vielleicht braucht deine Katze einfach ein bisschen Ruhe oder sie hat heute einen schlechten Tag." "Mein Kater, nicht meine Katze."

Und das kann Perplexity jetzt. Auf Android-Smartphones schon länger, seit Januar nämlich, und kann da dann auch wirklich den Google Assistant komplett ersetzen. Das geht hier in den Android-Einstellungen unter Apps und dann Standard-Apps. Auf iPhones gibt's den Perplexity Assistant seit ein paar Tagen. Klar, da muss man natürlich erst mit Apple verhandeln, was man an Systemfunktionen nutzen darf. Man kann Siri damit auch nicht komplett ersetzen, aber man kann Perplexity auf den Action-Button legen oder über ein Widget starten. Das startet zwar etwas langsamer als Siri, gibt dafür aber deutlich bessere Antworten – zumindest in unserem Test.

Viele Funktionen von Perplexity Assistant sind bei iOS und der Android-Version identisch. Deswegen schauen wir uns jetzt erstmal die plattformĂĽbergreifenden Features an. Die Android-exklusiven Funktionen zeige ich euch dann danach.

Ich würde sagen, die eindrucksvollste Funktion ist das sehr geschmeidige Interagieren mit anderen Diensten. Perplexity kann ganz ohne Plugins oder irgendwelche Einstellungen auf Dienste wie OpenTable, Uber oder YouTube zugreifen. Konkretes Beispiel: "Yo, Perplexity, moin moin. Ich will mit dem Team morgen um 19 Uhr essen gehen. Mach mir mal bitte eine Reservierung bei so einem italienischen Restaurant hier in der Stadt." "Ich habe eine Reservierung für dein Team für morgen um 19 Uhr im Botticelli Restaurant in Hannover gemacht. Ihr könnt jetzt zur OpenTable Buchungsseite wechseln, um die Reservierung abzuschließen. Guten Appetit."

Perplexity zeigt mir dann mehrere Optionen. Ich kann mir eine aussuchen und werde direkt auf OpenTable weitergeleitet, wo in den Feldern schon die Personenzahl, Zeit, Datum und das Restaurant eingetragen sind. Technisch funktioniert das gut. Praktisch hat das aber in Deutschland ein großes Problem: Es nutzen nicht so viele Restaurants OpenTable. Sehr viele Restaurants kann man damit leider nicht reservieren. Eigentlich schade – warum schaut Perplexity nicht selbst auf der Website nach, ob Reservierungen per Telefon, Mail oder über ein eigenes Buchungssystem möglich sind? Das klappt leider nicht, sondern man wird immer auf OpenTable umgeleitet, weil das in den USA ein größerer Standard ist und hier nicht so gut funktioniert.

Was aber wirklich zuverlässig funktioniert: Ich kann mir aus den Ergebnissen direkt eine Mail formulieren lassen und die dann an meine Kollegen schicken. Klar, jedes große Sprachmodell kann Mails vorformulieren, aber ich muss die dann ja immer manuell kopieren und ins Mail-Programm oder in die Webmail-Oberfläche einfügen. Perplexity öffnet direkt das Mail-Programm auf meinem Telefon und trägt alles ein. Das ist schon ziemlich cool und geht auch super schnell.

Ein anderes Beispiel für die Integration mit anderen Diensten, die auch in Deutschland schon sinnvoll verwendbar sind: Ich kann Perplexity nach dem Weg fragen oder auch einfach fragen: "Wo kann ich mir denn hier mal eine bunte Tüte kaufen?" und bekomme dann die Route direkt angezeigt, zum nächsten Kiosk in dem Fall. Unter iOS ist das leider immer die Apple-Karten-App, die zumindest in meiner Umgebung schlechtere Informationen hat als Google Maps. Leider kann ich Google Maps in der iOS-Perplexity-App nicht benutzen. Unter Android ist es natürlich umgekehrt – da ist Google Maps voreingestellt. Ich kann dann sogar sagen: "Bitte buch mir ein Uber dahin." Dann lande ich direkt in der Uber-App und muss nur auf OK drücken. Dann ist alles schon vorausgefüllt. Auch ziemlich cool.

Ansonsten kann der Perplexity-Assistent auch sehr gut Videos suchen, hier auf YouTube. Das Neue daran, was alte Assistenten nicht konnten, ist, dass ich nicht stumpf sagen muss: "Videotitel auf dem und dem Kanal", sondern ich kann einfach fragen: "Ich will mir eine Krawatte binden. Such mir mal ein Video raus." Es fängt dann sofort an zu autoplayen. Und ich finde auch, dass es super schnell geht. Ich kann auch einfach fragen: "Spiel mal bitte diesen viralen Song aus dem Barbie-Film. Mir fällt der Name gerade nicht ein." Und je nach Smartphone kann ich den dann bei Apple Music, Spotify oder YouTube Musik anhören.

Das Gleiche gilt auch fĂĽr YouTube-Videos. Ich kann gezielt nach bestimmten Videos suchen, zum Beispiel: "Zeig mir mal das letzte 3003-Video ĂĽber Home-Server." Dann kann man sich das Video direkt anschauen. Oder ich lasse Perplexity eine kurze Zusammenfassung schreiben und dann das direkt per Mail an jemanden schicken. Perplexity kann auch sowas: "Zeig mir mal das 3003-Video mit den meisten Abrufen." Funktioniert sehr gut und sehr schnell.

Klassische Sprachassistenten-Funktionen wie Erinnerungen oder Kalendereinträge erstellen gehen bei iOS und Android auch mit Perplexity Assistant. Die einzelnen Einträge landen wirklich direkt in den Erinnerungen oder in der Kalender-App. Kalendereinträge per Sprache finde ich extrem praktisch, weil ich das manuelle Eintragen in die einzelnen Felder immer als umständlich und nervig empfinde. Allerdings, das muss ich natürlich sagen, können auch die Oldschool-Assistenten wie Siri und Google Assistant Termine in den Kalender eintragen. Die können auch Timer und Wecker per Sprache stellen. Gerade Timer ist bei meinem Google Home Mini in der Küche wirklich das meistgenutzte Feature. Genau das kann Perplexity Assistant auf iOS noch nicht – vermutlich weil Apple das nicht erlaubt, denn auf Android klappt das mit den Timern und Weckern.

Unter Android kann Perplexity, wie gesagt, auch als Standard-Assistant-Programm ausgewählt werden und dann den Google Assistant bzw. Gemini ersetzen. In dem Fall ist es natürlich wichtig, dass er alle Standardaufgaben hinbekommt, und das klappte bei uns im Test auch zuverlässig. Aber diese tiefergehende Integration in Android hat noch mehr Vorteile.

Ich kann mir zum Beispiel meine Benachrichtigungen zusammenfassen lassen und dazu direkt Fragen stellen. Wichtig ist dabei – und man muss sich darüber im Klaren sein, was man hier tut – dass man Perplexity alle Berechtigungen erteilen muss, also auch den Zugriff auf die Benachrichtigungen. Dann können diese direkt zusammengefasst werden, wenn ihr Perplexity darum bittet. Ich kann es einfach fragen: "Habe ich neue Benachrichtigungen?" und bekomme eine Zusammenfassung. Ich kann aber auch nach bestimmten Apps oder Personen fragen, also: "Hat mir heute die und die Person was geschrieben?" Dann kriegt man das alles zusammengefasst. Das kann ich mir schon als praktisch vorstellen.

Im Gegensatz zur iOS-Version kann der Perplexity Assistant unter Android auch auf die Smartphone-Kamera zugreifen und euch dazu Fragen beantworten. Aktuell geht das aber nur mit Bildern, nicht mit Videos. Außerdem könnt ihr Perplexity auch Zugriff auf den Bildschirminhalt geben – das ist natürlich ein heikles Feature, weil alles zu Perplexity geschickt wird, aber kann auch super praktisch sein. Im Prinzip ist das die gleiche Funktion wie Circle to Search, die es schon länger auf Android-Smartphones gibt. Im Gegensatz zur klassischen Variante landet ihr aber nicht einfach in der Google-Suche mit dem eingekreisten Inhalt, sondern könnt direkt Perplexity dazu befragen.

Wenn ihr zum Beispiel gerade Musik hört und euch fragt, auf welchem Chartplatz dieses Album eigentlich war oder ob es Cover-Versionen davon gibt – ihr müsst dann nur unten auf den Stift drücken und dann entweder einen Bildschirmbereich einkreisen oder einfach auf das Feld mit "Text zeichnen, um hervorzuheben" drücken. Dann wird das zu Perplexity geschickt. Das funktioniert auch gut als Fact-Checker: Für alles, was ihr auf eurem Smartphone-Bildschirm lest, habt ihr auf Knopfdruck einen Fakten-Checker, der euch auf Wunsch auch mehr Infos zum Thema vorlesen kann.

Perplexity als Sprachassistent ist wirklich schon an vielen Stellen sehr brauchbar. Allein wie zuverlässig ich damit YouTube-Videos starten oder Termine eintragen kann, finde ich ziemlich nice. Ob mir das reicht, das Ding dauerhaft zu installieren, bin ich mir noch nicht so sicher. Es zeigt aber auf jeden Fall klar, wo die Reise hingeht. Also das, was Rabbit schon vor einigen Jahren versprochen hat und nicht wirklich eingehalten hat – da haben wir schon ein Video drüber gemacht. Man muss allerdings sagen, dass Rabbit seit dem Video dazugelernt hat und jetzt auch Deutsch versteht. Aber wir sind noch nicht wirklich am Ziel.

Es ist klar, dass man in Zukunft komplexe Aufgaben per Sprache stellen können wird und die KI das dann komplett übernimmt. Sowas wie: "Such mir den am besten bewerteten Pizzaladen raus, bei dem es Familienpizza gibt und der innerhalb von 20 Minuten liefern kann und bestell mir da die und die Pizza." Das kann noch kein einziges System. Das Problem ist immer, dass die Sprachmodelle noch nicht so richtig gut mit den Diensten interagieren können, zum Beispiel mit einer Pizzabestellwebsite. Da kommt aber langsam Bewegung ins Thema. Zum Beispiel hat Anthropic, also die, die Claude machen, die sogenannten MCPs eingeführt – Model Context Protocol. Das ist eine standardisierte Schnittstelle, mit der KI-Systeme mit Software interagieren können. Das hat auf jeden Fall sehr viel Potenzial.

Perplexity Assistant kann Stand heute erst ein paar Sachen aufrufen: Kalender, OpenTable, Mail, Uber und YouTube konkret. Das wird aber sicherlich mehr werden. Und ich brauche eigentlich gar kein System, das mir wirklich alles komplett abnimmt, sondern so die ersten 80%. Wenn ich zum Beispiel Tickets für ein Konzert oder fürs Kino kaufen will, möchte ich gar nicht, dass das Ticket schon gekauft ist. Die Plätze möchte ich mir vielleicht selbst aussuchen. Die KI kann mich bis zu diesem Punkt bringen, dann sage ich, welchen Platz ich haben will, und das System macht den Rest automatisch. Die nervigen Sachen soll die KI mir gerne abnehmen.

Aber wir müssen auch über ein paar fragwürdige Fakten sprechen. Zum Beispiel, dass Perplexity ganz offen sagt, dass sie alles tracken wollen, was die User machen, um damit in Zukunft hyperpersonalisierte Werbung zu verkaufen. Darüber muss man sich im Klaren sein. Und unter iOS hat Perplexity sogar die Funktion, permanent zuhören zu können, auch wenn der Bildschirm aus ist. Das habe ich zuerst gar nicht richtig gecheckt und mich dann echt erschrocken, als Perplexity aus heiterem Himmel mir etwas antwortete. "Jo ne. Mach's gut. Wenn du wieder Hilfe brauchst, bin ich gerne für dich da."

Also auf jeden Fall Augen auf bei der KI-Verwendung. Ich hoffe wirklich, dass es irgendwann sehr fähige KI-Assistenten gibt, die Open Source sind und die man selbst hosten kann. Dass so ein Konzern alles auswertet, was ich meinem persönlichen Assistenten sage, um dann mit den Informationen Werbung zu verkaufen – ja, ich weiß, auf diesem Prinzip fußen große Teile des Internets, und das halte ich auch für problematisch. Aber je kompetenter solche Systeme werden, desto mehr Details werde ich vermutlich mit ihnen teilen. Und wenn es die Möglichkeit gibt, das zu vermeiden, würde ich das tun.

Vor allem ist es natürlich gefährlich, wenn die Systeme permanent mithören – nicht wie bei der klassischen Alexa, die nur beim Keyword zuhört, sondern wirklich dauerhaft. Das ist ein Sicherheitsalbtraum. Man kann das aber natürlich auch abstellen. Nur weil ich das aus Versehen aktiviert hatte, heißt es nicht, dass man es so nutzen muss. Man kann es auch so einstellen, dass es nur zuhört, wenn ich den Knopf drücke.

Ja, oder bin ich da zu negativ drauf. Schreibt es gerne in die Kommentare. Und ich sage es ja immer wieder: Wir lesen die wirklich alle durch. Und natĂĽrlich gerne abonnieren. Und tschĂĽss.


c't 3003 ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen, Lukas Rumpler, Sahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.

(jkj)