Kommentar zur Google I/O: Coole KI-Produkte, aber kaum jemand versteht es

Google hat bei der diesjährigen I/O mit den Geminis nur so um sich geworfen. Warum das schwierig ist und wer oder was sie alle sind, kommentiert Eva-Maria Weiß.

60

Das Dach der Veranstaltungshalle der Google I/O.

(Bild: Google Press Kit)

15.05.2024, 12:36 Uhr

Lesezeit: 7 Min.

Von

Eva-Maria Weiß

Kommentar zur Google I/O: Coole KI-Produkte, aber kaum jemand versteht es

Sie heißen Flash, Nano, Ultra und sind in Advanced oder kostenlos und zig Arten verfügbar – Google hat unzählige KI-Produkte im Portfolio. Die meisten heißen Gemini mit irgendeinem Namenszusatz. Aber während es für Google-Mitarbeiter und sehr tief involvierte Menschen vielleicht ein Leichtes ist, den Neuheiten und Vorstellungen auf der diesjährigen Google I/O zu folgen, macht der Kopf eines Otto-Normal-KI-lers schnell mal Boom und steigt aus. Damit tut sich Google keinen Gefallen. Das ist schade, denn die Produkte sind gut!

Eva-Maria Weiß hat an der Universität Wien Kommunikationswissenschaft mit dem Schwerpunkt Medienpsychologie studiert und arbeitet seither als Journalistin.

Es ist ein klarer Affront gewesen, dass OpenAI am Tag vor der Google I/O sein neu auserkorenes Spring-Update abhält, ein nach eigenen Aussagen Live-Event aus dem Büro heraus gestreamt. Klar, dass bei Google zu dem Zeitpunkt schon der gesamte Ablauf der I/O feststand. Ob sie noch etwas geruckelt haben, höchstens minimal. Doch leider hat OpenAI etwas besser gemacht als Google. Und das sind nicht unbedingt Produkte und KI-Anwendungen oder Modelle, Google ist von seiner Primus-Rolle da kaum herunterzustoßen. Aber manchmal liegt in der Einfachheit eben die Schönheit – oder der Erfolg.

Lesen Sie auch

Google I/O: Video-KI, Suche-KI und noch mehr KI

ChatGPT versus Gemini Live, Project Astra und Googles Suche

OpenAI hat mit GPT-4o ein Omnimodel gezeigt, das nativ Text, Audio und Vision zugleich verarbeiten kann. Das ist schon mal recht leicht verständlich. Noch eingängiger ist aber, dass sie bei der Präsentation einfach sehr lange verschiedene Beispiele für den Einsatz von GPT-4o in ChatGPT zeigen. Diese Beispiele sind es, die sehr viele Menschen abholen. Man kann also bald mit der Smartphone-Kamera auf etwas halten und dazu eine Frage stellen? Cool. Ist noch gar nicht in der Form verfügbar – das fällt aber zum Teil unter den Tisch. Alle Welt schreit, OpenAI zeige die Zukunft.

Es liegt sicher nicht nur an dem einen Tag Vorsprung von OpenAI, dass es bei Google etwas hinten unterfällt, dass sie das gleiche Produkt künftig anbieten werden. Es wird sogar in mehrere Dienste integriert. Und da startet der Salat: Gemini Live, die künftige Suche, in der KI steckt, Project Astra – all das umfasst genau diese Möglichkeit, die Kamera auf etwas zu halten und gleichzeitig mit einem KI-Assistenten zu sprechen und Fragen zu stellen. Aber ist das jetzt überall das gleiche? Irgendwie nicht und doch. Um ein wenig für Aufklärung zu sorgen, folgt weiter unten eine Liste mit Google Produkten samt Erklärung, was sie sind.

Google hat nicht zum ersten Mal Schwierigkeiten mit der Bezeichnung von Produkten. Bei den Kommunikationstools von Allo bis Meet war es schon ähnlich. KI steckt jetzt einfach tiefer verwurzelt, überall drin, was erklärt, dass es nicht einfach sein dürfte, die Benennung einfach zu gestalten. Aber: Gemini ist auf der einen Seite ein Großes Sprachmodell (Large Language Model, LLM), das es in verschiedenen Versionen, mit verschiedenen Namen gibt. Gemini ist aber auch der Chatbot, der über genau diese URL zu erreichen ist, und den es als App gibt. Natürlich sorgt das für Verwirrung.

Die Flut an Informationen und Produkten ist einfach zu viel. Googles I/O ist ein zu voll gepacktes Paket, das dem Postboten unterwegs aufplatzt und deshalb leider nicht vollständig beim Empfänger ankommt. Dabei wär der Inhalt so gut!

Eine KI-Suche ersetzt keine Suche

Da wäre die Suche. Es gab Gerüchte, OpenAI werde eine reine KI-Suche an den Start bringen. Dem war nicht so. Wahrscheinlich wär das auch gar nicht so klug. Denn ein Großteil der Suchanfragen sind etwa Unternehmen oder Shops, bei denen die Menschen einfach auf die Startseite gelangen wollen – statt irgendwelcher KI-zusammengefasster Informationen zu dem Unternehmen oder Shop zu bekommen. Google weiß das und versteht das. Google weiß auch, dass ihre Stärke die gigantische Wissensbasis ist, die sie aufgebaut haben, beispielsweise zu Orten, Veranstaltungen, Öffnungszeiten, Transportmöglichkeiten und reinen Informationen. Das ist nicht durch ein Sprach- oder Omnimodel zu ersetzen, sondern nur zu ergänzen. Liz Reid, Leiterin für die Suche bei Google, erklärt denn auch, dass sie beides nutzen werden: die Wissensbasis und KI. Dahinter steckt auch das Prinzip, der Teufel macht immer auf den größten Haufen. Für den Anwender dürfte Google sich damit als Platzhirsch klar behaupten.

Ist das bei jemandem angekommen, der sich die I/O angeschaut hat? Zwischen all den Flashs und Photos und Lives und Tokens wahrscheinlich leider nicht. Die I/O ist ursprünglich eine Entwicklerkonferenz. Wer tief in der Materie steckt, kann folgen und pickt sich vielleicht auch seine inhaltlichen Rosinen. Um Otto-Normal-KI-ler und das breite Publikum zu erreichen, ist die Veranstaltung in dieser Form leider schwierig.

Das Gemini-ABC:

Gemini: Googles multimodales Sprachmodell, das zugleich der Name des KI-Chatbots ist, der zuvor Bard hieß.

Gemini 1.5 Pro: Googles leistungsstärkstes Gemini-Modell, das ein besonders großes Kontextfenster bietet – mit einer Million Tokens beziehungsweise neu zwei Millionen Tokens für Entwickler.

Gemini Nano: Die kleinste und besonders effiziente Version des KI-Modells, das für Mobilgeräten optimiert ist.

Gemini Ultra: Das Schwergewicht aus der Gemini-KI-Modell-Familie, das besonders komplexe Aufgaben übernehmen kann.

Gemini 1.5 Flash: Ein auf Basis von Gemini 1.5 Pro trainiertes KI-Modell, das besonders schnell und kostengünstig ist.

Gemini: Ein KI-Chatbot, der als App und im Web erreichbar ist.

Gemini Live: Googles künftige Vorstellung eines KI-Assistenten oder der Suche, damit kann man zugleich die Kamera und Sprache nutzen, um Gemini etwas zu fragen.

Project Astra: Dahinter vereinen sich die Arbeiten an dem KI-Assistenten, bei dem auch von Agenten gesprochen wird, die für Anwender agieren.

Ask Photos with Gemini: Die Funktion, bei der man in der Fotos-App nach Informationen fragen kann – in natürlicher Sprache.

Veo: Googles Video-KI, bei der Videos mittels eines Prompts erstellt werden können.

Imagen: Googles Bildgenerator

Lyria: Googles Musik-KI

Music AI Sandbox: Umfasst alle KI-Anwendungen, die mit Musik zu tun haben. Der Begriff Privacy Sandbox steht für die Ablösung von Drittanbieter-Cookies im Browser Chrome, die nur schleppend vorankommt. Erstaunlich, dass sie Sandbox auch anderweitig verwenden.

Ask with Video: Die Kamera und Sprach-Nutzung in der Suche, die grundsätzlich wie Gemini Live und Project Astra funktioniert.

Gemini Side Panel: Der KI-Assistent, der bereits in Google Workspaces eingezogen ist, also dem Microsoft Copilot ähnelt.

Med-Gemini: Googles multimodales Model für medizinische Anwendungen

Gems: Personalisierte Chatbots

AI Overview: Die KI-generierten Zusammenfassungen zu einer Suchanfrage, die im obersten Bereich auftaucht.

Gemma: Googles Open-Source-Models

PaliGemma: Ein offenes Vision-Language-Model

SynthID: Googles Arbeiten an einem digitalen Wasserzeichen

Trillium: Die sechste Generation TPUs (tenSor Processing Units) – spezielle KI-Chips.

(emw)