Missing Link: Offener Web-Index soll Europa bei der Suche unabhängig machen

Seite 2: Womöglich öffentliche Moderation von Inhalten

Der Ansatz soll es laut Plote Wissenschaftszentren, Bibliotheken und letztlich der ganzen Öffentlichkeit im Stile der Wikipedia ermöglichen, die Suche mitzugestalten. Sie könnten etwa Datenbankstrukturen, thematische Fragen und Algorithmen überprüfen und zu einer "öffentlichen Moderation" von Inhalten führen. Spätestens am Ende der Projektlaufzeit sollen alle erstellten Ressourcen – und möglichst alle gesammelten Daten – prinzipiell jedem Interessierten zur Verfügung gestellt werden.

Warum ist ein Index überhaupt so wichtig? Ein solcher Katalog dient zunächst als Nachschlagewerk beziehungsweise geordnetes Verzeichnis, um etwas zu finden. Vor allem aus Büchern ist eine entsprechende Verschlagwortung bekannt. Im Gegensatz zum begrenzten Inhaltsverzeichnis ist der Index hier schon deutlich detaillierter und erlaubt so einen raschen Zugriff auf gesuchte Inhalte. Darin kann etwa auch schon notiert sein, wo welche Bilder zu welchen Themen vorkommen, welche Wörter nur in Überschriften vorkommen und welche andere Literatur zitiert wird.

Das dickste "Buch" der Menschheit

Das dickste "Buch", das die Menschheit bislang geschrieben hat, "ist das World Wide Web" (WWW), konstatiert der Suma in einer Einführung in den geplanten OWI. Ohne einen Web-Index wäre im hauptsächlichen Teil des Internets mit seinem "gigantisch großen Inhalt kaum etwas wiederzufinden". Suchmaschinen machten daher mit dem Web-Index das, was Leser eines Buchs mit dem Schlagwortverzeichnis tun: nachsehen, zu welchen Suchwörtern, Bildern oder Themen welche Webseiten passten.

Einschlägige Programme suchen in dem Moment, in dem Nutzer Begriffe in die Maske eingeben, nicht wirklich im ganzen Web, sondern "nur" in ihrem Index. Alles andere würde viel zu lange dauern bis zur Ergebnisausgabe. Bei Meta-Suchmaschinen ist es ähnlich: Sie benutzten die von anderen Suchmaschinenbetreibern erstellten Indexe, wenn ihnen dies gestattet wird. Sie sind dem Suma zufolge so vom guten Willen der Eigentümer der Verzeichnisse abhängig.

Google weltweite Dominanz

Einen aussagekräftigen Web-Index zu erstellen, zu betreiben und zu pflegen ist aufwändig und teuer. Weltweit gibt es nur noch vier Betreiber eines solchen Katalogs mit mehr oder weniger globalem Anspruch: Google und Microsoft nebst der Yahoo Search Alliance mit Sitz in den USA, Yandex aus Russland und Baidu in China. In diesem Markt erreichte Google bereits im Jahr 2000 einen Meilenstein, der den Grundstein für seine Dominanz bis heute legte: Mit über einer Milliarde Webseiten im eigenen Index wurde der Anbieter zur größten Suchmaschine der Welt.

Heute sind Schätzungen zufolge zwischen 500 und 600 Milliarden Webauftritte in Googles Verzeichnis. Microsoft erschließt über seine Suchmaschine Bing dem Vernehmen nach 100 bis 200 Milliarden Webseiten. Vor allem für Google haben sich die Investitionen zum Selbstläufer entwickelt: Mit jeder Suchanfrage erhält das Unternehmen mehr Daten, um seinen Suchalgorithmus intelligenter zu machen und zu erkennen, was die Nutzer wissen wollen. Der Vorsprung vor Konkurrenten wird so tendenziell immer größer.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier eine externe Umfrage (Opinary GmbH) geladen.

Umfragen immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Opinary GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Marktführer bevorzugt

Webseiten-Betreiber bieten zugleich Crawlern von Google, die das Internet automatisch durchsuchen und Inhalte scannen, oft einen privilegierten Zugang. Dies wiederum erlaubt es dem Konzern, einen umfangreicheren und aktuelleren Index anzubieten. Hintergrund ist eine symbiotische Beziehung, die den Marktführer bevorzugt: Webseiten sind auf Suchmaschinen angewiesen, um möglichst viele Besucher anzulocken und gegebenenfalls Werbeeinnahmen zu erzielen. Suchmaschinen wiederum müssen die Angebote crawlen können, um den Nutzern relevante Ergebnisse zu liefern. Jeder Crawler beansprucht aber die Ressourcen einer Website, da er Server- und Bandbreitenkosten verursacht. Such-Bots kleinerer Index-Ersteller müssen so manchmal draußen bleiben.

Google und Microsoft gelten als die einzigen Suchmaschinen-Betreiber, die jährlich hunderte Millionen Euro ausgeben, um eine möglichst aktuelle Echtzeitkarte zumindest des englischsprachigen Internets zu bieten. Das Geld fließt laut der britischen Kartellbehörde zusätzlich zu den Milliarden, die beide Konzerne im Laufe der Jahre für den Aufbau ihrer Indizes investiert haben.

Neueinsteiger chancenlos

Ein echter Wettbewerb, in dem auch Neueinsteiger eine Chance haben, kann sich kaum entwickeln. "Wenn die Leute bei einer Suchmaschine mit einem kleineren Index sind, werden sie nicht immer die gewünschten Ergebnisse erhalten", erklärte Matt Wells, der vor über 20 Jahren die Suchmaschine Gigablast gründete, 2020 gegenüber der New York Times. "Und dann gehen sie zu Google und bleiben da." Gigablast hatte zu besten Zeiten einen Index von rund fünf Milliarden Webseiten, gegen den Marktführer blieb aber letztlich keine Chance.

So sind bereits viele ambitioniert gestartete alternative Suchmaschinen den Bach heruntergegangen. Das Team von DuckDuckGo etwa beschloss vor mehr als einem Jahrzehnt, nicht mehr das gesamte Internet zu crawlen und übernimmt seitdem Ergebnisse von Microsoft. Das Unternehmen durchsucht zwar noch große Webauftritte wie Wikipedia, um Ergebnisse für Antwortfelder in den Suchergebnissen zu liefern. Die Pflege eines eigenen großen Index war für die Firma finanziell aber nicht machbar. Die Indizierung "ist das das Schwierigste", weiß Brian Schildt Laursen, einer der Gründer der 2018 dichtgemachten Suchmaschine FindX.

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}