Google Gemini zieht in Android- und iOS-Geräte ein – samt Live-Funktion

Googles Gemini ersetzt den Sprachassistenten. Die KI kann in Echtzeit kommunizieren, den Bildschirm sehen und auf Apps zugreifen.

In Pocket speichern vorlesen Druckansicht 108 Kommentare lesen

(Bild: Google Blogbeitrag)

Lesezeit: 4 Min.

Mit Gemini sollen Smartphones zu leistungsstarken KI-Assistenten werden, kündigt Google bei der Vorstellung seiner neuen Pixel-Geräte an. Die neuen KI-Funktionen sind für Android und iOS verfügbar. Gemini Live macht die verbesserte Kommunikation in Echtzeit möglich. Sie kommt allerdings noch ohne Live-Videofunktion aus. Durch die Verbindung mit anderen Apps kann Gemini Aufgaben aus und von diesen übernehmen. Auf Android-Geräten ist Gemini ebenso erreichbar wie zuvor der Google Assistant, nämlich mit "Hey Google" oder indem der Einschaltknopf lange gedrückt wird.

Google hatte Gemini Live bereits bei der hauseigenen Messe I/O im Mai vorgestellt. Nun zieht der erweiterte Assistent auch tatsächlich in Smartphones ein – allerdings nur für Menschen, die ein kostenpflichtiges Advanced-Abonnement haben. Dann lässt sich mit Gemini in Echtzeit und besonders natürlich kommunizieren. Im Blogbeitrag zur Vorstellung der neuen Funktionen schreibt Google als Beispiel, man könne künftig über potenzielle Jobs brainstormen und die eigenen Fähigkeiten und den eigenen Abschluss als Input in das Gespräch einbringen. Live-Gespräche lassen sich auch unterbrechen und später fortführen. Der neue Assistent ist auch erreichbar, wenn das Smartphone mit gesperrtem Display in der Tasche liegt.

Neben der Einschränkung, dass Gemini Live zunächst nur für zahlende Nutzer zur Verfügung steht, ist der Assistent zunächst nur in englischer Sprache verfügbar. Weitere Sprachen sollen folgen, auch die iOS-Variante erscheint erst in den kommenden Wochen. In den USA stehen bereits zehn Stimmen zur Auswahl.

Bei der ursprünglichen Vorstellung hatte Google auch gezeigt, wie Gemini bei aktivierter Kamera verfügbar ist, man also mit dem KI-Assistenten über etwas sprechen kann, das man sieht. Von dieser Funktion war nun noch nicht die Rede. Auch OpenAI hatte im Mai eine ähnliche Funktion vorgestellt, die auf dem Omnimodell GPT-4o basiert. Sie ist ebenfalls noch nicht verfügbar. Inzwischen wurde ChatGPT um einen Voice-Modus erweitert. Dieser soll besonders gut in Echtzeit reagieren.

Immerhin kann Gemini auf Android-Geräten bereits auf das zugreifen, was auf dem Bildschirm zu sehen ist, etwa eine Webseite oder ein Youtube-Video. Dazu gibt es die Funktion "Fragen zu diesem Bildschirm" oder zu "diesem Video".

Mit einer KI-Suche für Screenshots kann Google auch Inhalte finden, die man selbst als Screenshot abgelegt hat. Da Gemini auf dem gleichnamigen Sprachmodell Gemini Nano basiert, das multimodal ist, kann die Suche Objekte und Text auf den Bildern erkennen. Die Screenshots lassen sich auch in Gruppen organisieren, damit passende Informationen gefunden werden. Gesucht wird freilich in natürlicher Sprache. Die Funktion läuft lokal, es ist keine Internetverbindung nötig.

Gemini lässt sich mit weiteren Apps und Diensten von Google verbinden. In den kommenden Wochen soll dies unter anderem mit Notizen, Aufgaben, der Gerätesteuerung und Youtube Music möglich sein. Dann lassen sich zum Beispiel aus einer Mail mit einem Rezept die Zutaten in Notizen auf eine Einkaufsliste setzen. Für das Abendessen kann Youtube Music dann gleich eine passende Playlist erstellen. Laut Google wird "Gemini verstehen, was ihr wollt und es für euch erledigen". Bald sollen auch der Kalender und Fotos integriert werden können.

Auf Android-Telefonen ist Gemini wie zuvor auch der Google Assistant erreichbar. Wahlweise drückt man lange den Einschaltknopf oder sagt "Hey Google".

Google hat extra für mobile Geräte das Große Sprachmodell mit dem gleichen Namen: Gemini 1.5 Flash entwickelt. Es ist besonders schnell, denn Anfragen an ein Sprachmodell können eine Weile dauern. Freilich warnt Google auch, dass Antworten und das Verhalten von Gemini ungenau und unerwartet sein können. Sowohl an der Geschwindigkeit als auch der Qualität arbeite man.

(emw)