KI-Suche statt Google? Forscher zeigen, wo die Chatbots noch hinterherhinken

Kann KI mit der Google-Suche mithalten? Forscher sind dem nachgegangen und stellten fest, dass es noch einige gravierende Unterschiede zwischen den Tools gibt.

vorlesen Druckansicht 9 Kommentare lesen
Person nutzt auf einem iPhone die Google-Suche

(Bild: DenPhotos/Shutterstock)

Lesezeit: 4 Min.
Von
  • Dieter Petereit
Inhaltsverzeichnis

Immer mehr KI-Unternehmen wollen Googles Suchmaschine Konkurrenz machen. So haben etwa ChatGPT und Perplexity eigene KI-gestützte Tools für die Suche im Web veröffentlicht. Mittlerweile ist sogar Google selbst mit einem eigenen KI-Modus an den Start gegangen, der Nutzern die Recherchearbeit in der bekannten Suchmaschine abnehmen soll. Zwar liefern die Tools allesamt Antworten in Sekunden, doch sind sie dadurch gleich besser als die klassische Google-Suche?

In ihrem Paper "Characterizing Web Search in The Age of Generative AI" sind Forscher genau dieser Frage nachgegangen. In einem Experiment haben die Verantwortlichen die "alte" Google-Suche gegen vier neue KI-Tools antreten lassen: Googles KI-Ăśbersichten, Gemini 2.5 Flash sowie GPT 4o Search und GPT 4o mit Such-Tool. FĂĽr den Test wurden 4606 Suchanfragen aus verschiedensten Bereichen und Datensets zusammengetragen. So stammen beispielsweise 1000 Anfragen aus einem Datenset mit echten Bing-Suchen und 1700 aus einem Datenset mit echten Fragen von Usern an ChatGPT.

Die Suchanfragen reichen dabei von allgemeinen Themengebieten über Politik, Wissenschaft bis zu Shopping-Anfragen. So haben die Forscher die KI-Tools und die normale Google-Suche mit Anfragen wie "Wie höre ich mit Prokrastinieren auf?", "Wie beeinflusst die globale Wirtschaft Karrieren und Berufe?" oder "Welches Unternehmen ist führend im Bereich Robotik?" gefüttert. Obwohl die Fragen immer gleich geblieben sind, unterschieden sich die Antworten zwischen den Systemen gravierend.

Zunächst haben die Forscher einen Blick auf die Quellenauswahl geworfen. Viele KI-Tools verlassen sich auf weniger bekannte Webseiten für Quellen-Links. So stammten bei Googles KI-Übersicht (AI Overview) 53 Prozent der verlinkten Webseiten nicht aus den Top 10 der herkömmlichen Suche. Zudem gibt es starke Unterschiede bei der Anzahl der zitierten Webseiten. GPT gab im Schnitt nur 0,4 Webseiten pro Anfrage an. Auch GPT-Search lag mit 4,1 Seiten im Schnitt noch im unteren Bereich. Nur Gemini und Googles KI-Übersicht gaben im Schnitt mehr als acht Quellen an. Generell konnten die Forscher feststellen, dass die Anzahl der Links stieg, wenn die KI-Antwort länger ausfiel. Dann können sich die Modelle wohl nicht mehr ausschließlich auf ihr internes Wissen verlassen.

Besonders gravierend sind die Unterschiede, wenn der Faktor Zeit ins Spiel kommt. Zeitkritische Anfragen können KI-Systeme nicht so gut beantworten wie die Standard-Websuche. So suchten die Verantwortlichen in allen Systemen nach "Ricky Hatton Todesursache". Die GPT-Modelle konnten keine aktuellen Meldungen finden und gaben an, dass der ehemalige Boxweltmeister noch am Leben wäre. Er verstarb jedoch im September 2025. Und auch Gemini konnte in nur 66 Prozent der Fälle mit aktuellem Bezug eine passende Antwort liefern.

Der zweite Zeittest fand zwei Monate später statt. Die KI-Systeme und die Websuche wurden erneut mit denselben Anfragen konfrontiert. Dadurch wollten die Forscher herausfinden, wie konsistent die Antworten der Tools ausfallen. Während die normale Suche bei 45 Prozent der Anfragen auf dieselben Quellen zurückgriff, waren es bei Gemini 40 Prozent. Weit abgeschlagen dahinter: Googles KI-Übersicht mit lediglich 18 Prozent konsistenten Quellen.

Videos by heise

Abschließend halten die Forscher fest: "Unsere Arbeit zeigt, dass es neue Evaluationsmethoden benötigt, die Quellendiversität, konzeptuelle Themenabdeckung und Verhaltensweisen in generativen Suchsystemen abdecken. […] Zudem unterstreichen die Erkenntnisse, wie wichtig es ist, ein zeitliches Bewusstsein und eine dynamische Informationsbeschaffung in die generativen Suchen zu integrieren."

Dennoch betonen die Forscher, dass ihre Arbeit noch Limitierungen aufweist und weitere Untersuchungen notwendig sind. So haben sie etwa nicht untersucht, wie sich die Suchergebnisse verändern, wenn die Anfragen in einer längeren Konversation mit den Chatbots stattfinden. Zudem fanden die Anfragen ausschließlich in englischer Sprache in den USA und in Deutschland statt. Abschließend haben sich die Verantwortlichen für den Vergleich nur auf die ersten zehn Ergebnisse der Standard-Google-Suche verlassen, da Nutzer die hinteren Seiten nur selten aufrufen.

Dieser Beitrag ist zuerst auf t3n.de erschienen.

(jle)