Gemini 2.0: Googles neues KI-Modell ist multimodal

Der Nachfolger von Gemini 1.5 bringt laut Google Fortschritte bei Multimodalität und Tools mit – für CEO Pichai ein Schritt zum "universellen Assistenten".

vorlesen Druckansicht 43 Kommentare lesen
Google-Schriftzug an weißer Wand

(Bild: testing/Shutterstock.com)

Lesezeit: 2 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Google stellt mit "Gemini 2.0 Flash" das erste Modell der nächsten Gemini-Generation vor. Das noch experimentelle Modell lässt sich in der webbasierten Gemini-App bereits auswählen, in der Smartphone-App soll es bald nachgerüstet werden, teilte Google am Mittwoch mit.

Flash sind in Googles KI-Universum die auf Geschwindigkeit ausgelegten Modelle. Die neue Version basiert auf dem Vorgängermodell Gemini 1.5 Flash und ergänzt dieses um neue Fähigkeiten wie multimodale Ein- und Ausgaben, so Google weiter. Anfang des Jahres soll Gemini 2.0 auch in weitere Google-Produkte kommen.

Das Modell kann mit Text, Bild und Audiodaten gefüttert werden und nun neben Text auch Bilder und Audio generieren. Darüber hinaus ist Gemini 2.0 Flash in der Lage, selbst Werkzeuge wie die Google Suche aufzurufen sowie von Nutzern definierte Funktionen oder Code auszuführen.

Videos by heise

Für Entwickler ist die neue Version über die Gemini API in Google AI Studio und Vertex AI erhältlich. Die multimodale Ausgabe ist zunächst nur für einen ausgewählten Entwicklerkreis verfügbar, im Januar sollen dann alle darauf zugreifen können.

Google-CEO Sundar Pichai spricht von einer "neuen Ära der Agenten": "Mit Gemini 2.0 führen wir unser bisher leistungsstärkstes Modell ein", sagt Pichai. "Mit den Fortschritten in Multimodalität wie native Bild- und Audiogenerierung sowie der Nutzung von Tools können wir neue KI-Agenten entwickeln, die uns dem Ziel des universellen Assistenten näherbringen."

(vbr)