Googles Project Astra: Gemini-App bekommt Augen

Noch diesem Monat kann man sich mit Gemini über das unterhalten, was man sieht. Dazu spricht der KI-Assistent nun 45 Sprachen.

(Bild: YueStock/Shutterstock.com)

03.03.2025, 08:00 Uhr

Lesezeit: 3 Min.

Von

Eva-Maria Weiß

Google zeigt auf dem diesjährigen MWC in Barcelona zwei neue Funktionen für Gemini. Konkret geht es um Gemini Live, also den KI-Assistenten, mit dem man sich über die Android- und iOS-App in Echtzeit unterhalten kann. Die wird auf Googles neuestes Gemini-Modell aktualisiert – Gemini 2.0 Flash. Das ist die Version des multimodalen Modells, die besonders auf die schnelle, mobile Nutzung zugeschnitten ist.

Die App Gemini ist mit dem Update in der Lage, 45 Sprachen zu verstehen und zu sprechen. Neu ist dabei, dass man mitten im Satz die Sprache ändern kann. Dazu, so kündigt es Google an, müsse man nicht mehr die Sprach-Einstellungen des Telefons ändern – einfach in einer anderen Sprache weitersprechen und "Gemini Live wird es verstehen und antworten können". Diese Funktion soll ab sofort verfügbar sein.

Später in diesem Monat, heißt es bei Google, kommt die Live-Videoeingabe. Das sei eine der Schlüsselfunktionen von Project Astra. Dieses hatte Google auf der vergangenen hauseigenen Messe I/O vorgestellt. In einem Video lief jemand mit einer smarten Brille durch einen Raum und unterhielt sich währenddessen mit dem KI-Assistenten über das, was er sah. Project Astra ist jedoch laut Google ein "Forschungs-Prototyp für einen universellen KI-Assistenten". Die Live-Videoeingabe zieht nun zunächst auf das Smartphone in Form der App ein. Dabei merkt sich Gemini auch, was Nutzerinnen und Nutzer mit ihm besprochen haben, sodass man darauf später wieder zurückgreifen kann.

Videos by heise

Neben der Videoeingabe gibt es künftig auch eine Bildschirmfreigabe. Diese macht es möglich, dass man sich mit Gemini Live über das unterhalten kann, was auf dem Telefon zu sehen ist. Google schreibt in einer Pressemitteilung, so könne man sich etwa künftig eine neue Jeans kaufen.

Die visuellen KI-Funktionen werden zunächst nur für Pixel- und Samsung-Geräte verfügbar sein.

KI-Assistenten und smarte Brillen

KI-Assistenten klüger und praktischer zu machen, ist derzeit das Anliegen aller großen KI-Anbieter. OpenAI hat beispielsweise einen KI-Agenten namens Operator im Angebot, dem man ebenfalls in natürlicher Sprache sagen kann, dass er eine Jeans kaufen soll. Dazu benötigt er zudem den Advanced Voice Mode. Auch OpenAI hatte bei der Ankündigung des Sprachmodus im Sommer gesagt, er bekäme visuelle Fähigkeiten, seit Dezember können auch Menschen in der EU darauf zugreifen, sofern sie ein Plus- oder Pro-Konto haben.

Meta bietet einen visuellen KI-Assistenten vor allem mit seinen smarten Brillen, den Ray-Ban Meta Glasses an. Mit diesen kann man die Umgebung anschauen und dazu direkt Fragen stellen. Zuständig für die Bearbeitung ist Meta AI – bisher jedoch nicht in der EU.