WTF

Googles KI-Übersichten ist immer noch nicht zu trauen

Seit dem Frühjahr spuckt die Google-Suche in immer mehr Ländern KI-Übersichten aus. Doch die halluzinatorischen Merkwürdigkeiten verringern sich nur teilweise.

In Pocket speichern vorlesen Druckansicht 16 Kommentare lesen
Google AI Overviews: Generiertes KI-Bild aus Suchergebnissen mit WTF-Overlay

Googles AI Overviews: Generiertes KI-Bild aus Suchergebnissen – präsentiert, als sei es echt.

(Bild: Todd Fong / Midjourney / heise online)

Lesezeit: 9 Min.
Inhaltsverzeichnis

Im Flugzeug in Richtung Tokio möchte ich mich darüber informieren, welche Möglichkeiten es gibt, vom Flughafen Narita per Zug in die Stadt zu gelangen. Das Flugzeug-WLAN scheint mich als US-Bürger einzuordnen – oder zumindest als jemanden, den Google als Person ansieht, dem man Zugriff auf die im Frühjahr in ersten Regionen eingeführten AI Overviews geben darf. Also erscheint bei meiner Frage nach einem "airliner train" (denn so hatte ich den Begriff "Skyliner" fälschlicherweise in Erinnerung) in der japanischen Hauptstadt gleich ganz oben die von Googles generativem Gemini-System erstellte KI-Übersicht, die Web-Ergebnisse möglichst intelligent zusammenfassen soll.

Was da steht (siehe Screenshot) klingt schon mal ganz gut: Es gebe "unterschiedliche Möglichkeiten" mittels "airliner train" nach Tokio zu gelangen, darunter den "Skyliner", den "Narita Express" sowie den "Jodan Skyflyer Ultra Express". Darunter befinden sich dann noch einige Aussagen samt Verlinkung dazu, was die verschiedenen Züge denn bedeuten. Während mir "Skyliner" und "Narita Express" als konkurrierende Transportmittel auf Schienen ein Begriff sind, komme ich beim "Jodan Skyflyer Ultra Express" ins Grübeln. Hat der Airport etwa einen neuen Spezialzug aufgesetzt? Der Name klingt schon einmal sehr japanisch. Also tue ich, was man immer tut – und googele. Wie sich herausstellt, taucht der Begriff offenbar nur auf einer einzigen Seite auf: dem Blog eines Japan-Fans namens Todd Fong, der darin Reisetipps gibt und seine Fotos präsentiert.

In dem Blog-Posting beschreibt er in einem Kurzgeschichten-artigen Text einen Trip mit einem "Flugzug" des besagten Namens. "Für alle, die in den letzten Monaten unter einem Stein gelebt haben: Der Skyflyer Ultra Express ist das weltweit erste öffentliche Transportsystem, das von Bahnhof zu Bahnhof fliegt. Er ist im Grunde ein fliegender Zug, der die Bahnhöfe Tokio, Takanawa Gateway, Kawasaki und Yokohama ansteuert." Komplettiert wird die Story mit einigen relativ hübschen Midjourney-KI-Bildern, mit denen Fong sein Posting untermalt. Erst im letzten Absatz ist dann nachzulesen, worum es sich wirklich handelt: "Können wir hier ehrlich sein? Die Geschichte, die Sie gerade gelesen haben, ist Teil meiner "Illusionen von Japan"-Serie. Das sind Werke, die teilweise wahr und teilweise Fiktion sind – über Menschen, Orte und Ereignisse in Japan." Heißt: Googles KI-Übersicht ist voll ins Fake-Näpfchen getappt, beziehungsweise scheint Texte nicht zu Ende zu "lesen".

Fehlerhafte KI-Übersicht bei Google: Der "Jodan Skyflyer Ultra Express" ist eine Erfindung aus einer Web-Kurzgeschichte.

(Bild: Screenshot / heise online)

Das Verwirrende an diesem Fall ist die Tatsache, dass die AI Overviews nicht nur komplett offensichtliche Anzeichen von Fiktion (mehr als ein Selbstouting geht nicht) überlesen haben, sondern offenbar auch fast unbekannten Websites einen hohen Vertrauens-Score beizumessen scheinen. Dass der Suchbegriff zudem offensichtlich nur einmal im Index vorkommt (zumindest im Rahmen meiner Google-Cookie-Personalisierung), lässt ebenfalls am Algorithmus zweifeln. Wie kann es sein, dass hier zwei von zahlreichen Web-Quellen belegte Fakten (Skyliner, Narita Express) mit einem dritten, komplett falschen Faktum ("Skyflyer") ergänzt werden, das nur eine einzige Quelle hat?

Vermutlich war es schlau von Google, dass man nach Einführung der KI-Übersichten deren Anzeige im Sommer zunächst wieder etwas zurückgefahren hat. Doch man sollte nicht den Fehler begehen, zu glauben, dass der Konzern die Funktion aufgibt. Dafür ist sie zu lukrativ. Im Suchgeschäft ist sie zukunftsträchtig, weil Nutzer mit ihr länger bei Google selbst bleiben, statt wie früher von der Suchmaschine aus per Direktlink ins Web aufzubrechen. Schon vor dem Gemini-Zeitalter hatte Google über das letzte Jahrzehnt hinweg immer mehr Inhalte direkt im eigenen Angebot unter und über eigener Werbung integriert. Wetter oder Umrechnungskurse? Macht Google selbst. Nachrichten? Werden zusammengefasst. Kochrezepte oder Song-Lyrics? Klar, geben wir Dir sofort. Das sorgte in der Publisher-Industrie regelmäßig für einen Aufschrei. Mit den KI-Übersichten liegt Google hier eine dicke Schippe drauf, denn die Motivation, von der Suchmaschine weiter ins Web zu gehen, wird noch mehr reduziert, durch scheinbare Gemini-Intelligenz. Und Quellen sind nur noch durch klitzekleine Icons gekennzeichnet, die die Klickbereitschaft zusätzlich minimieren dürften. Schon jetzt nehmen die AI Overviews zusammen mit Google-eigenen Inhalten laut Untersuchungen bis zu 75 Prozent des Seiteninhalts auf Mobilgeräten ein, auf dem Desktop sind es um die 67 Prozent. Dass da viele Menschen weiter zu den sogenannten organischen Suchergebnissen scrollen, ist zunehmend unwahrscheinlich.

Generative KI arbeitet bekanntermaßen mit Wahrscheinlichkeiten. Welcher Token – also Wortteil – kommt als Nächstes? Daraus ergibt sich ein komplexes Netzwerk des Sprachverständnisses, das nicht einmal viele KI-Forscher verstehen, weil es intern viel zu kompliziert ist. Klar ist, dass man dem Output nie zu 100 Prozent trauen kann, denn man kann so viel trainieren, wie man möchte, es kommt immer noch zu Halluzinationen. Das liegt im grundlegenden System der generativen KI begründet. Schlimm daran ist, dass der Output stets echt klingt, man also nicht wissen kann, welche vielleicht 20 Prozent falsch und welche 80 Prozent richtig sind. Für seine AI Overviews, die ja eine kritische Anwendung sind, verwendet Google daher Retrieval Augmented Generation (RAG), bei der sich die generative KI aktueller Suchdaten bedienen kann. Und ja, die so generierten Inhalte erhalten dann sogar eine Quelle mit Link ins Web.

Doch werden diese Links oftmals nicht geklickt oder verweisen eben auf nicht vertrauenswürdigen Content, wie in meinem obigen Beispiel. Viel wurde in der KI-Szene über den schlauen Schritt Googles gejubelt, mit Reddit einen exklusiven Vertrag in Sachen Training und RAG zu schließen (der sich später allerdings als gar nicht exklusiv erwies, denn auch OpenAI bekommt die Daten). Denn da, hieß es, gibt es ja dank guter Moderation auch die guten Inhalte. Auch hier zeigte sich, dass das nicht stimmen muss und die AI Overviews unter anderem Reddit-Satire nicht von echten Infos unterscheiden konnten. Steine essen, Pizzakäse ankleben: das war nur die Spitze des Eisbergs. Google-Chef Sundar Pichai verspricht für nächstes Jahr bereits noch mehr KI in der Suche. Die "erweiterten Reasoning-Fähigkeiten von Gemini 2.0" sollen dann "komplexere und Multi-Step-Fragen" beantworten können. Dass das Feature auch in die EU kommt, ist nur eine Frage der Zeit. Schon jetzt erreiche man mit den AI Overviews eine Milliarde Menschen, so Pichai, die dann "ganz neue Arten von Anfragen" stellen könnten. Die KI-Übersichten entwickelten sich "schnell zu einer der populärsten Suchfunktionen aller Zeiten". Und "agentisch" soll das Ganze natürlich auch werden.

Damit wir uns nicht falsch verstehen: Das Problem mit dem Halluzinieren betrifft durch die Bank die gesamte generative KI, dies ist und bleibt ihr Geburtsfehler. Und zwar auch noch zwei Jahre nach dem "Big Bang" der großen, Transformer-getriebenen Sprachmodelle, dem Erscheinen von ChatGPT. Gleiches gilt für die 80/20-Problematik, dass eben nur Fachmenschen zweifelsfrei sagen können, was denn da tatsächlich falsch ist – oder man einen größeren Rechercheaufwand betreiben müsste, um Fehler auszuschließen. Eine gewisse Gegenströmung gibt es hier bereits – sowohl aufseiten der Nutzer, die schon nach Auswegen suchen, AI Overviews nicht angezeigt zu bekommen, als auch bei professionellen Inhalteerstellern. Die durften kürzlich miterleben, dass auch Apples KI-Übersichten für Benachrichtigungen zu äußerst merkwürdigen Outputs neigen können – die längst nicht mehr nur lustig sind. Auch hier das typische Bild: Viel generativer Content, der stimmt, plus den einen, klitzekleinen, aber schwerwiegenden Fehler, den man dann überliest. Ein "Good enough"-Produkt geht anders, denn wer soll sich bitte auf so etwas verlassen?

Eine echte Lösung für das Problem habe ich nicht. Doch, vielleicht eine: Wie wäre es einmal damit, Funktionen mit hohem Risiko nicht gleich auf größere Teile der Menschheit loszulassen? Wie war das noch mit der Risikoabschätzung im AI Act der EU? Aber selbst dann: Apple bekam von der Börse und Beobachtern massiv auf die Nase, weil der Konzern sich für die Einführung von Apple Intelligence gefühlt so viel Zeit ließ, auch jetzt noch nicht alle angekündigten Funktionen ausgerollt hat. Und was passiert? Auch dieses "Zeit nehmen" reichte nicht aus. Natürlich wird alles fein säuberlich als Beta gekennzeichnet oder gar als "Experiment", auf das sich die Nutzerschaft nicht verlassen soll.

Doch warum wird es dann überhaupt herausgehauen? Die Gefahr ist groß, dass Falschinformationen aus vertrauenerweckenden Quellen (Apple, Googles Suchmaschine) eben für bare Münze genommen werden – und es zu echten Unfällen im Umgang mit diesen Inhalten kommt. Vielleicht fangen Leute ja deshalb damit an, YouTube und TikTok als Suchmaschine zu verwenden. Nur: Auch die werden längst mit KI-Müll geflutet. Der Geist Alan Turings stehe uns im kommenden Jahr bei.

(bsc)