Missing Link: Offener Web-Index soll Europa bei der Suche unabhängig machen

Seite 3: "Kein europäisches Google"

Inhaltsverzeichnis

Nicht weit kamen 2006 auch Deutschland und Frankreich mit der auf Multimedia-Inhalte ausgerichteten "Antwortmaschine" Quaero. Ziel war es, zugleich Basistechnologien für das semantische Web zu fördern, um auch mehrdeutige Begriffe erkennen und eine Klassifizierung nach verschiedenen Kategorien durchführen zu können. Doch dann trennten sich die Wege beider Länder rasch wieder und letztlich lief das deutsche Rumpfprojekt Theseus 2012 mehr oder weniger sang- und klanglos aus.

Wie wollen die OWI-Mitstreiter in diesem Umfeld mit ihren überschaubaren Mitteln reüssieren? Auf jeden Fall solle der offene Index "kein 'europäisches Google' werden", bemüht sich der Suma um Abgrenzung. Vielmehr gehe es darum, eine Dateninfrastruktur bereitzustellen, "die andere Firmen oder Organisationen nutzen können, um darauf neue Dienste aufzubauen". Das jetzt geförderte Projekt sei allein darauf ausgerichtet, mit den beteiligten Partnern sowie "ihrer jeweiligen Expertise und ihren Ressourcen die erste Grundlage für einen offenen Web-Index" zu legen.

Die OSF als ein Vordenker schwört prinzipiell auf einen dezentralen Ansatz. "Die ersten Crawler sind schon aktiv", berichtete die OSF-Sprecherin Andrea Schmölzer heise online. "Sie dienen allerdings erst mal nur als Prototypen." Die große Herausforderung werde es sein, ein gemeinsames System zu entwickeln, das von vorne bis hinten durchläuft, also vom Crawling über die Anreicherung bis zur Indexierung.

Die ersten Schritte in der Indizierung laufen Schmölzer zufolge ebenfalls mittlerweile. Dabei verwendeten die Mitstreiter auch die 700 einschlägiger Daten aus Milliarden von Seiten des öffentlichen Common Crawls. Diese schon etablierte Initiative erstellt aber keinen durchsuchbaren Index, sondern sammelt "statisch" Daten aus dem Web und macht sie verfügbar.

Noch in diesem Quartal wird es laut Schmölzer zusammen mit weiteren Partnern zunächst etwa darum gehen, auch rechtliche und ethische Fragen zu beantworten. Vor allem dürfte spannend werden, wie der OWI – im Gegensatz zu übermächtigen und "einfach so" akzeptierten großen Suchinstanzen – in einem sicheren Rechtsrahmen crawlen könne. Es müsse geklärt werden, ob die einschlägigen Vorgaben aus der Datei robots.txt ausreichten. Auf dem Programm stehe ferner die semantische Anreicherung und Indexierung. Dafür werde das DLR Geo-Coding mithilfe von Satellitendaten verfeinern.

Ende September startete mit dem Seitenprojekt "Serci SearchEngine" ein Baustein für die offene Suchinfrastruktur. Als erste Komponente veröffentlichten die Macher den Serci-WebCrawler als einen potenziellen Kandidaten für das Sammeln von Daten für den OWI. Dieser Bot sei "voll auf Geschwindigkeit ausgelegt", weiß mit Hartmut Stein einer seiner Entwickler. Das Mitglied der Technologie-Fachgruppe der OSF versprach sich davon "einen schnelleren Durchsatz und einen geringeren Stromverbrauch pro abgerufener Webseite". Erste Tests legten nahe, dass der Bot rasanter und energieeffizienter sei als vergleichbare Crawler wie Heritrix.

Schmölzer stellt aber klar, dass Serci (Esperanto für 'suchen') kein integriertes System und daher "nur" ein Teil der Index-Architektur sei. Der Crawler werde trotz der Vorschusslorbeeren insgesamt keine zentrale Rolle spiele. Das Projektteam arbeite mit "Owler" als eigenem übergeordneten Werkzeug. Dieses beruhe auf dem Open-Source-Projekt StormCrawler.

"Es ist geplant, externe Partner für erste Tests und gemeinsame Arbeit zu gewinnen sowie eine Open-Source-Community zu etablieren", lässt Martin Potthast, Juniorprofessor Text Mining und Retrieval an der Uni Leipzig, durchblicken. Vorbild könnten Initiativen wie BigScience und LAION sein, in der "große Konsortien aus Forschenden und Citizen Scientist zusammenarbeiten, um den neuronalen Netzen GPT-3 zur Texterzeugung und DALL-E zur Bilderzeugung, die in letzter Zeit Furore machen, freie Alternativen gegenüberzustellen".

Ferner beteiligen sich die Forscher Potthast zufolge an der Entwicklung neuer Suchalgorithmen mit dem Ziel, eine Reihe neuartiger Suchanwendungen zu entwickeln. Darunter befinde sich das Ausfindigmachen von Argumenten zu kontroversen Themen im Web und "Conversational Search", also die "Suche im Dialog" etwa mit Sprachassistenten und Bots wie ChatGPT. Dazu gebe es eine enge Kooperation unter anderem mit der Webis-Gruppe der Unis Weimar und Halle-Wittenberg.

Einbringen wollen Potthast und seine Mitstreiter zudem mit dem "Immersive Web Observatory" eine Infrastruktur zur Analyse von Web-Archiven im Petabyte-Bereich. Die Daten dafür beziehe man exklusiv vom Internet Archive, das bis in die 1990er-Jahre zurückreiche. Dieses Verzeichnis konkurriere durchaus "in Umfang und Diversität mit den nicht-öffentlichen Webdaten Googles von damals bis heute". Eine solche in Europa einmalige Zugriffsoption erlaube es, "Analyseverfahren zu entwickeln, die es mit denen kommerzieller Suchanbieter aufnehmen können". Die Ergebnisse würden im Anschluss "erstmals auch öffentlich verfügbar sein".

Die entwickelte Infrastruktur werde "im besten Sinne ein öffentliches europäisches Gut und damit das Fundament für eine Vielfalt von transparenten und neuartigen Suchmaschinen", gibt Plote als Parole aus. Der Suma sieht im OWI auch eine emanzipatorische Initiative. Nutzer dieses Indexes dürften ihm zufolge viele neue Betreiber sein, "welche die unterschiedlichsten Arten und Formen von Suchmaschinen daraus entwickeln". Die Resultate könnten sich völlig von bekannten Zugangsportalen zum Web unterscheiden, etwa "durch andere Bedienung, anderes Design, andere Themengebiete, andere Geschäftsmodelle". Bei letzteren sei es durchaus gewünscht, dass sie "in Konkurrenz zueinander stehen".