KI auf der Google I/O: PaLM 2 erscheint, die Suche wird generativ und bunt

Zum Auftakt von Google Entwicklerkonferenz dreht sich alles um KI: Googles Bard soll multilingual und multimodal werden, PaLM erscheint als Version 2.

37

Kathy Edwards stellt die künftige Suche vor.

(Bild: Screenshot Google I/O)

10.05.2023, 20:57 Uhr

Lesezeit: 6 Min.

Von

Eva-Maria Weiß

KI auf der Google I/O: PaLM 2 erscheint, die Suche wird generativ und bunt

KI, KI – und noch mehr KI: Auf der Google I/O 2023 steht Künstliche Intelligenz im Vordergrund. Zum Auftakt der Google-Konferenz für Entwickler stellen CEO Sundar Pichai und Heerscharen von Produktmanagern vor, wie KI sämtliche Produkte des Unternehmens verändern wird. "Wir erfinden alle unsere Produkte neu mit KI", sagte Pichai im Amphitheater von Mountain View, umgeben von einem klatschenden und lachenden Publikum. "Make AI helpful for everyone" – künstliche Intelligenz soll hilfreich sein – ist der wiederkehrende Slogan der Veranstaltung. Es gibt KI in der Suche, KI in der Arbeitsumgebung, KI für Fotos und KI überall.

Das Pathway Language Model, PaLM, kommt in einer zweiten Version raus. PaLM 2 kann mehr als 100 Sprachen und bringt Schreib-, Programmier- und Analyse-Fähigkeiten mit. Googles Sprachmodell (Large Language Model, LLM) bildet die Grundlage von Bard, Googles Chatbot, der mit ChatGPT vergleichbar ist. Bisher war Bard nur in den USA und Großbritannien für ausgewählte Tester verfügbar. Ab sofort können Menschen in 180 Ländern Bard befragen. Neben Englisch spricht Bard auch Japanisch und Koreanisch. 40 Sprachen – darunter Deutsch – sollen bald folgen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes Video (TargetVideo GmbH) geladen.

Videos immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (TargetVideo GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Zusammenschnitt: Google IO 2023 in 10 Minuten (Quelle: Google)

Chatbot versteht Kontext

Bard soll multilingual und multimodal werden. Unter multilingual versteht man hier, dass der Chatbot Sprache tatsächlich im Kontext versteht. Sätze und Redewendungen wie "Ich verstehe nur Bahnhof" soll Bard einordnen können und nicht einfach 1:1 übersetzen. So funktioniert die Suche bereits, in der sich seit Jahren BERT um komplizierte Suchanfragen kümmert.

Mit der Technik der "Bidirectional Encoder Representations from Transformers" soll das Training von Sprachmodellen vereinfacht werden. BERT ist vergleichbar mit dem GPT in ChatGPT, dem aktuellen Grundlagenmodell OpenAIs, das inzwischen auch in Microsofts neuem Bing steckt. Wobei das T bei beiden Modellen für Googles 2017 vorgestellten Transformer steht. Googles ebenfalls bereits bekannte Technik namens MUM, (Multitask Unified Model) wird genutzt, um in der Suche Absichten des Fragestellers besser verstehen zu können.

Videos by heise

In Zukunft soll Googles Suche direkt von der KI generierte Informationen liefern. Dafür gibt es einen neuen Bereich unterhalb der Shopping-Ergebnisse, aber vor der eigentlichen Ergebnisliste. Text, Bilder, Links, wie man es von Google gewohnt ist, gibt es viel zu sehen und zu klicken, dennoch wirkt es übersichtlich und schick. So wechselt beispielsweise die Hintergrundfarbe je nach Thema. Der Konversationsmodus, also der Chatbot, ist über einen Reiter unterhalb der zusammengefassten Informationen zu finden.

Bard und Google Lens werden zudem verschmolzen. Als Einsatzzweck nennt Google das Beispiel eines hochgeladenen Fotos von zwei Hunden mit der Suche nach einer lustigen Bildunterschrift: "Welcher von den beiden ist ein guter Junge", lautet der Vorschlag. Multimodal bedeutet, dass Bard Bilder und Texte, im besten Fall bald Audio und Video gleichermaßen verarbeiten und diese Informationen verknüpfen kann. Mit Blick auf eine Artificial General Intelligence (AGI) – in Kurzform: die KI, die klüger wird als der Mensch und die uns in Filmen anspringt – ist diese Multimodalität ein wichtiger Schritt.

Magic Editor und Wasserzeichen

Aus dem von Google Fotos bekannten Magic Eraser wird der Magic Editor. Mit ihm kann man den Himmel auf einem Foto etwa dem Wetter anpassen, an das man sich erinnern will, witzelt Pichai. Das Foto eines Mädchens mit Luftballons, die seitlich abgeschnitten sind, lässt sich dank des Magic Editors einfach erweitern – Luftballons, eine Bank und Himmel generiert die KI in Nullkommanichts.

Angekündigt wurde auch, dass Firefly, der Bildgenerator von Adobe, sowie Adobe Express für Mobilgeräte in die Suche integriert werden. Adobe sagt in einer Pressemitteilung dazu, sie hätten "ethische Prinzipien bei der Entwicklung von Firefly beachtet, mit Blick auf eine Rechenschaftspflicht, Verantwortung und Transparenz." Dadurch seien die generativen KI-Modelle sowohl für den Anwender gemacht als auch sicher für die kommerzielle Nutzung. Firefly wurde trainiert mit Inhalten aus Adobe Stock, gemeinfreien Bildern, und mit solchen, deren Herkunft es urheberrechtlich nachweislich zulässt. Google möchte alle KI-Produkte mit entsprechenden Wasserzeichen und Metadaten ausstatten.

Nicht nur Adobe ist an Bord. Zahlreiche Unternehmen wie Walmart, Spotify und OpenTable werden Erweiterungen anbieten.

KI für alle Dienste und Produkte

KI soll in nahezu alle Google-Produkte einziehen. Grundsätzlich steckt KI schon länger in beispielsweise Gmail und filtert dort Spam heraus. Dann kam mit "Smart Reply" die Hilfe beim kurzen Beantworten einer Mail, es folgte "Smart Compose" als Schreibhilfe und nun soll "Help me Write" beim Schreiben einer ganzen Mail helfen und etwa die Tonalität ändern. Kein Plan von Tabellen? "Help me organize" und "Help me visualize" helfen beim Organisieren von Daten und dem Visualisieren. Präsentationen aus Notizen heraus erstellen – auch das geht künftig automatisch. Duet AI for Workspace heißt bei Google das, was Microsoft Microsoft 365 Copilot nennt.

Wann genau welche Funktionen verfügbar sein werden, ist noch recht offen. Bard befindet sich in einem Experiment-Stadium, wie die Google-Vertreter wiederholt betonen. Nahezu alle Anbieter bezeichnen ihre Sprachmodelle als Testversionen und sichern sich damit auch ein Stück weit ab, denn die LLMs halluzinieren, werfen also plausibel klingende, aber komplett falsche Informationen aus. Auch hinsichtlich Urheberrecht und Datenschutz gibt es noch offene Fragen.

Auf der Google I/O geht es zumindest in einigen Sessions auch um die ethischen Standards von Künstlicher Intelligenz und Grenzen für deren Einsatzgebiete. Google betont seit Jahren, sich auf verantwortungsvollen Umgang mit KI zu konzentrieren, und setzt sich für allgemein gültige Standards ein. Außerdem möchten die Google-Entwickler sehr behutsam vorgehen, da das Problem der Halluzinationen noch viel zu groß sei.

Update 11.05.2023, 09:45 Uhr

Wir haben die Information zu der Verfügbarkeit von Bard konkretisiert.