Googles Gemini soll künftig Anrufe erledigen und proaktiver werden

Im Project Astra experimentiert Google an neuen Gemini-Funktionen. Der Assistent soll künftig gar beim Fahrradhändler nach Ersatzteilen fragen können.

vorlesen Druckansicht 1 Kommentar lesen
Project Astra – Gemini Anruf-Agent

Google Gemini soll für uns irgendwann Anrufe erledigen können.

(Bild: Google)

Lesezeit: 5 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Googles KI-Team von Deepmind arbeitet mit "Project Astra" an einer universellen KI, die Nutzern dank Agenten langfristig Aufgaben abnehmen kann. Soweit klingt das erst einmal altbekannt, schließlich verspricht Google dies schon seit Jahren – zunächst für Google Now und dann für den Assistant. Doch die Aufgaben und Funktionen, die irgendwann einmal möglich sein sollen, reichen von Unterstützung bei der Fahrradreparatur, über den Einkauf, bis hin zur Schüler-Nachhilfe. Auf der Google I/O zeigte der Konzern einen Vorgeschmack auf das, was damit schon demnächst auf dem Smartphone und künftig auch Brillen möglich sein soll.

Mit Project Astra hatte Google bereits zur I/O 2024 einen "Forschungs-Prototyp für einen universellen KI-Assistenten" vorgestellt, dessen angekündigte Funktionen zum Teil schon jetzt Teil des KI-Assistenten Gemini sind. So kann Gemini beispielsweise über die Live-Funktion auf die Kamera und Bildschirminhalte zugreifen.

Laut Google soll Gemini Live etwa bei einem verstopften Abfluss helfen oder Tipps für einen defekten Plattenspieler geben, um Dinge wieder selbst herrichten zu können. Um diesen Rat von Gemini zu bekommen, hält der Nutzer einfach die Smartphone-Kamera auf das Objekt und fragt die KI, was das Problem sein könnte. Zudem kann sich Gemini schon an Dinge erinnern, die man der KI zuvor mitgeteilt hatte. Diese Gedächtnis-Funktion halten Google, aber auch ChatGPT und weitere KI-Anbieter für wichtig, weil ein Assistent nur hilfreich sein kann, wenn er den Nutzer kennt, meinen OpenAI und Co.

Im Zuge der diesjährigen I/O hat der Konzern weitere potenzielle Funktionen von Astra demonstriert, die irgendwann ein Teil von Gemini werden könnten. Eine wichtige Ingredienz sollen neben dem besseren Verständnis natürlicher Sprache vor allem Agenten spielen, die proaktiv Dinge für den Nutzer erledigen sollen. Proaktiv bedeutet in diesem Kontext, dass der Assistent den Nutzer auf Dinge aufmerksam macht, da dieser womöglich noch nicht weiß, was er im Folgeschritt brauchen wird. Auch deshalb ist das Gedächtnis so wichtig.

Wie der Konzern sich das vorstellt, zeigt ein Video, in dem ein Mann ein Fahrrad mit der Unterstützung von Astra auf dem Smartphone reparieren will. Er bittet die KI, eine Bedienungsanleitung für sein Fahrrad herauszusuchen und das Kapitel über Bremsen zu öffnen. Der Assistent scrollt dann eigenständig durch das PDF zum gewünschten Punkt. Die Forschungsversion des Assistenten kann aber noch viel mehr.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

So sucht die KI für den Nutzer auf eine mündliche Anfrage ein YouTube-Video heraus, das erklärt, wie man eine ausgefranste Schraube herausdrehen kann. Zudem soll Gemini, für den Nutzer bei einem Fahrradladen anrufen können, um nach einem Ersatzteil zu fragen – für das Delegieren von Aufgaben setzt Google KI-Agenten ein. Mithilfe der Smartphone-Kamera soll der Assistent auch bei der Suche nach einer passenden Schraubenmutter assistieren.

Project Astra: Gemini soll Nutzer künftig unter anderem bei der Reparatur helfen, geht es nach Google.

(Bild: Google)

Der Assistent hat hierfür aus der Mail des Fahrradhändlers an den Nutzer die entsprechenden Informationen bezogen und zeigt nun mit einem AR-Overlay auf dem Smartphone-Display, in welchem Kästchen die richtige Mutter gefunden werden kann. Vorausgesetzt ist hier, dass in der Werkstatt Ordnung herrscht und alles beschriftet ist. Wie mit einem normalen Gesprächspartner kann das Gespräch unterbrochen und anschließend wieder fortgesetzt werden.

Ein weiteres Video zeigt, wie Gemini künftig beim Lernen helfen könnte. Ein Mädchen macht einen Screenshot einer Chemieaufgabe, die es nicht versteht, und bittet Gemini um Hilfe. Die KI geht mit ihr das Thema durch und erklärt die Lösung Schritt für Schritt. Bei einer weiteren Aufgabe fragt die Nutzerin, was sie in ihrer Aufgabe falsch gemacht hat – die KI zeigt den Fehler auf und umkreist ihn auf dem Smartphone-Bildschirm.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Mit den Clips demonstriert Google, wie der Konzern sich die Art der Interaktion mit der KI vorstellt. Gemini soll letztlich ein echter Assistent für jede Lebenslage sein und für den Nutzer Rechercheaufgaben und sogar Anrufe erledigen können. Letztere Funktion hatte Google eigentlich bereits mit Duplex im Jahr 2018 während der I/O demonstriert, der Konzern gab später aber zu, bei der Demo getrickst zu haben. Duplex könnte bei den agentischen Funktionen von Gemini dennoch zum Einsatz kommen. Den Namen nimmt Google allerdings nicht mehr in den Mund. Jedoch wird Duplex in der Anfang 2025 eingeführten Funktion "Ask for me" in den USA eingesetzt, mit der Nutzer Terminvereinbarungen automatisieren können.

Videos by heise

Die demonstrierten Szenarien könnten den Alltag erleichtern. Klar. Jedoch bleibt abzuwarten, wann Google diese Funktionen in Gemini integriert und wie gut und bis zu welchem Grad das tatsächlich funktioniert. Wie in der Fahrradreparatur-Demo angedeutet wird, sollte die KI Zugriff auf viele unserer Daten haben, um wirklich hilfreich zu sein. Jedoch birgt ein freimütiger Datenzugriff von Nutzern auch immer Risiken und erfordert vom Nutzer großes Vertrauen in das Unternehmen. Google arbeitet zwar daran, Daten lokal auf dem Smartphone zu verarbeiten, jedoch ist der derzeitige Funktionsumfang für On-Device-KI-Aufgaben noch recht begrenzt.

(afl)