zurück zum Artikel

Missing Link: Offener Web-Index soll Europa bei der Suche unabhängig machen

Stefan Krempl
Close,Up,Of,Search,Button.,Concept,Of,Popularity,Of,Search

(Bild: Karramba Production/Shutterstock.com)

Mit der von der EU geförderten Entwicklung eines Open Web Index wollen Forscher die Dominanz von Google & Co. brechen und das menschliche Wissen verbreitern.

Mit einem Marktanteil von über 90 Prozent liegt Google in Europa regelmäßig auf Platz 1 der meistgenutzten Suchmaschinen. Seit 2004 ist "googeln" offiziell als Verb im Duden verzeichnet und steht dafür, mit der Anwendung der gleichnamigen Tochter des US-Dachkonzerns Alphabet im Internet zu suchen oder zu recherchieren. Google erschließt als Pforte für einen Großteil der Europäer und der Bürger weltweit nicht nur Informationen, sondern bestimmt für sie auch die Sicht auf das Internet und darin abgebildete Dinge mit.

"Wenn wir ehrlich sind, nutzen wir fast alle immer nur einen Zugang zu Informationen", gibt der niedersächsische Digitalstaatssekretär Stefan Muhle zu bedenken. "Und ich bin der festen Überzeugung, dass diese Monopolisierung, diese Kanalisierung, Informationen nur auf einem Weg zu bekommen, insgesamt der Wissenschaft nicht guttut und der freiheitlichen Demokratie auch nicht." Nötig sei daher eine "transparente und faire Websuche" als "europäischer Markenkern in der Digitalisierung", betont der CDU-Politiker: "Es wird Zeit, dass wir die digitale Vielfalt und unsere digitale Souveränität zurückgewinnen."

Muhle lobt daher das europäische Projekt Open Web Search [1], in dem Wissenschaftler seit September für drei Jahre am Kern eines europäischen Open Web Index (OWI) arbeiten und damit die Grundlage für eine neue europäische Websuche legen wollen. Ziel des Programms ist es, "die Dominanz außereuropäischer Internetkonzerne" wie Google und Microsoft zurückzudrängen, erläutert der Suma-Verein für freien Wissenszugang [2]. Er ist mit der Meta-Suchmaschine MetaGer als Partner neben der Open Search Foundation (OSF [3]), dem Deutschen Zentrum für Luft- und Raumfahrt (DLR), dem Forschungsinstitut CERN bei Genf und einem Dutzend Universitäten aus Deutschland, den Niederlanden, Tschechien, Slowenien und Finnland an dem Vorhaben beteiligt.

Zuvor gab es seit 2014 ein erstes deutsches Projekt für einen OWI, das von der Hochschule für Angewandte Wissenschaften Hamburg und der dortigen Abteilung für Information ausging. Der Suma griff dieses Vorhaben frühzeitig auf, sodass es inhaltlich in den neuen Anlauf mit hineinspielt. Dirk Lewandowski, Professor für Information Research und Retrieval an der Bildungseinrichtung in der Hansestadt, hob schon vor knapp zehn Jahren hervor [4], es sei höchste Zeit, endlich einen frei zugänglichen Suchmaschinen-Index und die dafür benötigte offene Infrastruktur zu schaffen.

Die EU-Kommission fördert die neue Initiative für einen offenen europäischen Unterbau für die Websuche mit 8,5 Millionen Euro über das Forschungsrahmenprogramm Horizont Europa. Ein freier, offener und unvoreingenommener Zugang zu Informationen sei das Grundprinzip fürs Suchen im Netz, führt Projektkoordinator Michael Granitzer von der Universität Passau und der OSF aus. Dieses sei aufgrund der Marktdominanz von Google verloren gegangen.

Dem wollen die Forscher Einhalt gebieten und das Grundgerüst für eine Suche bauen, die europäische Werte und Regeln ins Zentrum rückt. Dazu zählen etwa die Transparenz und Verstehbarkeit der eingesetzten Algorithmen, den Schutz der Privatsphäre und den Zugang der Nutzer zu ihren eigenen Daten. Die User sollen selbst entscheiden können, ob Informationen wie ihr Standort oder ihre Interessen einbezogen werden.

Die von großen Suchanbietern derzeit verwendeten Programmroutinen verzerren laut Experten mitunter Wahrnehmungen und beeinflussen so letztlich auch die gesellschaftliche Willensbildung. "Als Privatunternehmen könnte Google jederzeit Suchergebnisse nach seinen Vorstellungen gestalten", warnt Christian Gütl vom Cognitive and Digital Science Lab der am Projekt beteiligten TU Graz. Das tue der Betreiber auch schon, was aber noch viel massiver ausfallen könnte. Generell gelte: Wenn Webseiten "aus politischen oder monetären Gründen aus dem Suchindex von Google fallen, dann sind sie im Grunde nicht mehr auffindbar".

Auch als Datenkrake [5] werde der führende Suchanbieter immer gefährlicher, weiß Christine Plote aus dem OSF-Vorstand. Viele recherchierten im Netz zu sehr persönlichen Themen wie Krankheiten. Auf Basis dieser Suchhistorie erstellte Profile öffneten Tür und Tor für gewollte oder unbewusst erfolgende Manipulation und Missbrauch.

Während Google seinen Suchalgorithmus geheim hält und wie einen Augapfel hütet, soll der OWI Open Source sein. "Bei einem öffentlich einsehbaren Quellcode kann ich genau erfahren und vor allem auch nachprüfen, was die Suchmaschine über mich speichert", stellt Wolfgang Sander-Beuermann vom Suma einen damit verknüpften großen Vorteil dar. Dabei komme es neben den Suchwörtern etwa auf Kenngrößen wie IP-Adressen, Bildschirmchiffren sowie Schriftarten und -größen an, die über einen digitalen Fußabdruck zumindest einen PC oder ein Smartphone eindeutig bestimmbar machten.

Zweiter entscheidender Faktor ist Dezentralität. Um den OWI auf die Beine zu stellen, soll zunächst die verfügbare Rechenleistung mitmachender Einrichtungen gebündelt und der Index selbst verteilt werden. Vor allem das Leibniz-Rechenzentrum in Garching bei München, das als eines der größten im Wissenschaftsbereich in Europa gilt, das IT4 der TU Ostrava in Tschechien und voraussichtlich das CERN, an dem Tim Berners-Lee das Web erfand, werden dem Plan nach noch von diesem Quartal an erste Teile des Internets für den Index katalogisieren beziehungsweise Infrastrukturprojekte dezentral zum Crawlen bringen. Erste Versuche dafür liefen in Passau.

"Missing Link"

Was fehlt: In der rapiden Technikwelt häufig die Zeit, die vielen News und Hintergründe neu zu sortieren. Am Wochenende wollen wir sie uns nehmen, die Seitenwege abseits des Aktuellen verfolgen, andere Blickwinkel probieren und Zwischentöne hörbar machen.

Der Ansatz soll es laut Plote Wissenschaftszentren, Bibliotheken und letztlich der ganzen Öffentlichkeit im Stile der Wikipedia ermöglichen, die Suche mitzugestalten. Sie könnten etwa Datenbankstrukturen, thematische Fragen und Algorithmen überprüfen und zu einer "öffentlichen Moderation" von Inhalten führen. Spätestens am Ende der Projektlaufzeit sollen alle erstellten Ressourcen – und möglichst alle gesammelten Daten – prinzipiell jedem Interessierten zur Verfügung gestellt werden.

Warum ist ein Index überhaupt so wichtig? Ein solcher Katalog dient zunächst als Nachschlagewerk beziehungsweise geordnetes Verzeichnis, um etwas zu finden. Vor allem aus Büchern ist eine entsprechende Verschlagwortung bekannt. Im Gegensatz zum begrenzten Inhaltsverzeichnis ist der Index hier schon deutlich detaillierter und erlaubt so einen raschen Zugriff auf gesuchte Inhalte. Darin kann etwa auch schon notiert sein, wo welche Bilder zu welchen Themen vorkommen, welche Wörter nur in Überschriften vorkommen und welche andere Literatur zitiert wird.

Das dickste "Buch", das die Menschheit bislang geschrieben hat, "ist das World Wide Web" (WWW), konstatiert der Suma in einer Einführung in den geplanten OWI. Ohne einen Web-Index wäre im hauptsächlichen Teil des Internets mit seinem "gigantisch großen Inhalt kaum etwas wiederzufinden". Suchmaschinen machten daher mit dem Web-Index das, was Leser eines Buchs mit dem Schlagwortverzeichnis tun: nachsehen, zu welchen Suchwörtern, Bildern oder Themen welche Webseiten passten.

Einschlägige Programme suchen in dem Moment, in dem Nutzer Begriffe in die Maske eingeben, nicht wirklich im ganzen Web, sondern "nur" in ihrem Index. Alles andere würde viel zu lange dauern bis zur Ergebnisausgabe. Bei Meta-Suchmaschinen ist es ähnlich: Sie benutzten die von anderen Suchmaschinenbetreibern erstellten Indexe, wenn ihnen dies gestattet wird. Sie sind dem Suma zufolge so vom guten Willen der Eigentümer der Verzeichnisse abhängig.

Einen aussagekräftigen Web-Index zu erstellen, zu betreiben und zu pflegen ist aufwändig und teuer. Weltweit gibt es nur noch vier Betreiber eines solchen Katalogs mit mehr oder weniger globalem Anspruch: Google und Microsoft nebst der Yahoo Search Alliance mit Sitz in den USA, Yandex aus Russland und Baidu in China. In diesem Markt erreichte Google bereits im Jahr 2000 einen Meilenstein, der den Grundstein für seine Dominanz bis heute legte: Mit über einer Milliarde Webseiten im eigenen Index wurde der Anbieter zur größten Suchmaschine der Welt.

Heute sind Schätzungen zufolge zwischen 500 und 600 Milliarden Webauftritte in Googles Verzeichnis. Microsoft erschließt über seine Suchmaschine Bing dem Vernehmen nach 100 bis 200 Milliarden Webseiten. Vor allem für Google haben sich die Investitionen zum Selbstläufer entwickelt: Mit jeder Suchanfrage erhält das Unternehmen mehr Daten, um seinen Suchalgorithmus intelligenter zu machen und zu erkennen, was die Nutzer wissen wollen. Der Vorsprung vor Konkurrenten wird so tendenziell immer größer.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier eine externe Umfrage (Opinary GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Opinary GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung [7].

Webseiten-Betreiber bieten zugleich Crawlern von Google, die das Internet automatisch durchsuchen und Inhalte scannen, oft einen privilegierten Zugang. Dies wiederum erlaubt es dem Konzern, einen umfangreicheren und aktuelleren Index anzubieten. Hintergrund ist eine symbiotische Beziehung, die den Marktführer bevorzugt: Webseiten sind auf Suchmaschinen angewiesen, um möglichst viele Besucher anzulocken und gegebenenfalls Werbeeinnahmen zu erzielen. Suchmaschinen wiederum müssen die Angebote crawlen können, um den Nutzern relevante Ergebnisse zu liefern. Jeder Crawler beansprucht aber die Ressourcen einer Website, da er Server- und Bandbreitenkosten verursacht. Such-Bots kleinerer Index-Ersteller müssen so manchmal draußen bleiben.

Google und Microsoft gelten als die einzigen Suchmaschinen-Betreiber, die jährlich hunderte Millionen Euro ausgeben, um eine möglichst aktuelle Echtzeitkarte zumindest des englischsprachigen Internets zu bieten. Das Geld fließt laut der britischen Kartellbehörde zusätzlich zu den Milliarden, die beide Konzerne im Laufe der Jahre für den Aufbau ihrer Indizes investiert haben.

Ein echter Wettbewerb, in dem auch Neueinsteiger eine Chance haben, kann sich kaum entwickeln. "Wenn die Leute bei einer Suchmaschine mit einem kleineren Index sind, werden sie nicht immer die gewünschten Ergebnisse erhalten", erklärte Matt Wells, der vor über 20 Jahren die Suchmaschine Gigablast gründete, 2020 gegenüber der New York Times. "Und dann gehen sie zu Google und bleiben da." Gigablast hatte zu besten Zeiten einen Index von rund fünf Milliarden Webseiten, gegen den Marktführer blieb aber letztlich keine Chance.

So sind bereits viele ambitioniert gestartete alternative Suchmaschinen den Bach heruntergegangen. Das Team von DuckDuckGo etwa beschloss vor mehr als einem Jahrzehnt, nicht mehr das gesamte Internet zu crawlen und übernimmt seitdem Ergebnisse von Microsoft. Das Unternehmen durchsucht zwar noch große Webauftritte wie Wikipedia, um Ergebnisse für Antwortfelder in den Suchergebnissen zu liefern. Die Pflege eines eigenen großen Index war für die Firma finanziell aber nicht machbar. Die Indizierung "ist das das Schwierigste", weiß Brian Schildt Laursen, einer der Gründer der 2018 dichtgemachten Suchmaschine FindX.

Nicht weit kamen 2006 auch Deutschland und Frankreich mit der auf Multimedia-Inhalte ausgerichteten "Antwortmaschine" Quaero. Ziel war es, zugleich Basistechnologien für das semantische Web zu fördern [8], um auch mehrdeutige Begriffe erkennen und eine Klassifizierung nach verschiedenen Kategorien durchführen zu können. Doch dann trennten sich die Wege beider Länder rasch wieder [9] und letztlich lief das deutsche Rumpfprojekt Theseus 2012 mehr oder weniger sang- und klanglos aus [10].

Wie wollen die OWI-Mitstreiter in diesem Umfeld mit ihren überschaubaren Mitteln reüssieren? Auf jeden Fall solle der offene Index "kein 'europäisches Google' werden", bemüht sich der Suma um Abgrenzung. Vielmehr gehe es darum, eine Dateninfrastruktur bereitzustellen, "die andere Firmen oder Organisationen nutzen können, um darauf neue Dienste aufzubauen". Das jetzt geförderte Projekt sei allein darauf ausgerichtet, mit den beteiligten Partnern sowie "ihrer jeweiligen Expertise und ihren Ressourcen die erste Grundlage für einen offenen Web-Index" zu legen.

Die OSF als ein Vordenker schwört prinzipiell auf einen dezentralen Ansatz [11]. "Die ersten Crawler sind schon aktiv", berichtete die OSF-Sprecherin Andrea Schmölzer heise online. "Sie dienen allerdings erst mal nur als Prototypen." Die große Herausforderung werde es sein, ein gemeinsames System zu entwickeln, das von vorne bis hinten durchläuft, also vom Crawling über die Anreicherung bis zur Indexierung.

Die ersten Schritte in der Indizierung laufen Schmölzer zufolge ebenfalls mittlerweile. Dabei verwendeten die Mitstreiter auch die 700 einschlägiger Daten aus Milliarden von Seiten des öffentlichen Common Crawls [12]. Diese schon etablierte Initiative erstellt aber keinen durchsuchbaren Index, sondern sammelt "statisch" Daten aus dem Web und macht sie verfügbar.

Noch in diesem Quartal wird es laut Schmölzer zusammen mit weiteren Partnern zunächst etwa darum gehen, auch rechtliche und ethische Fragen zu beantworten. Vor allem dürfte spannend werden, wie der OWI – im Gegensatz zu übermächtigen und "einfach so" akzeptierten großen Suchinstanzen – in einem sicheren Rechtsrahmen crawlen könne. Es müsse geklärt werden, ob die einschlägigen Vorgaben aus der Datei robots.txt ausreichten. Auf dem Programm stehe ferner die semantische Anreicherung und Indexierung. Dafür werde das DLR Geo-Coding mithilfe von Satellitendaten verfeinern.

Ende September startete mit dem Seitenprojekt "Serci SearchEngine" [13] ein Baustein für die offene Suchinfrastruktur. Als erste Komponente veröffentlichten die Macher den Serci-WebCrawler als einen potenziellen Kandidaten für das Sammeln von Daten für den OWI. Dieser Bot sei "voll auf Geschwindigkeit ausgelegt", weiß mit Hartmut Stein einer seiner Entwickler. Das Mitglied der Technologie-Fachgruppe der OSF versprach sich davon "einen schnelleren Durchsatz und einen geringeren Stromverbrauch pro abgerufener Webseite". Erste Tests legten nahe, dass der Bot rasanter und energieeffizienter sei als vergleichbare Crawler wie Heritrix.

Schmölzer stellt aber klar, dass Serci (Esperanto für 'suchen') kein integriertes System und daher "nur" ein Teil der Index-Architektur sei. Der Crawler werde trotz der Vorschusslorbeeren insgesamt keine zentrale Rolle spiele. Das Projektteam arbeite mit "Owler" als eigenem übergeordneten Werkzeug. Dieses beruhe auf dem Open-Source-Projekt StormCrawler [14].

"Es ist geplant, externe Partner für erste Tests und gemeinsame Arbeit zu gewinnen sowie eine Open-Source-Community zu etablieren", lässt Martin Potthast, Juniorprofessor Text Mining und Retrieval an der Uni Leipzig, durchblicken [15]. Vorbild könnten Initiativen wie BigScience und LAION sein, in der "große Konsortien aus Forschenden und Citizen Scientist zusammenarbeiten, um den neuronalen Netzen GPT-3 zur Texterzeugung und DALL-E zur Bilderzeugung, die in letzter Zeit Furore machen, freie Alternativen gegenüberzustellen".

Ferner beteiligen sich die Forscher Potthast zufolge an der Entwicklung neuer Suchalgorithmen mit dem Ziel, eine Reihe neuartiger Suchanwendungen zu entwickeln. Darunter befinde sich das Ausfindigmachen von Argumenten zu kontroversen Themen im Web und "Conversational Search", also die "Suche im Dialog" etwa mit Sprachassistenten und Bots wie ChatGPT. Dazu gebe es eine enge Kooperation unter anderem mit der Webis-Gruppe [16] der Unis Weimar und Halle-Wittenberg.

Einbringen wollen Potthast und seine Mitstreiter zudem mit dem "Immersive Web Observatory" eine Infrastruktur zur Analyse von Web-Archiven im Petabyte-Bereich. Die Daten dafür beziehe man exklusiv vom Internet Archive, das bis in die 1990er-Jahre zurückreiche. Dieses Verzeichnis konkurriere durchaus "in Umfang und Diversität mit den nicht-öffentlichen Webdaten Googles von damals bis heute". Eine solche in Europa einmalige Zugriffsoption erlaube es, "Analyseverfahren zu entwickeln, die es mit denen kommerzieller Suchanbieter aufnehmen können". Die Ergebnisse würden im Anschluss "erstmals auch öffentlich verfügbar sein".

Die entwickelte Infrastruktur werde "im besten Sinne ein öffentliches europäisches Gut und damit das Fundament für eine Vielfalt von transparenten und neuartigen Suchmaschinen", gibt Plote als Parole aus. Der Suma sieht im OWI auch eine emanzipatorische Initiative. Nutzer dieses Indexes dürften ihm zufolge viele neue Betreiber sein, "welche die unterschiedlichsten Arten und Formen von Suchmaschinen daraus entwickeln". Die Resultate könnten sich völlig von bekannten Zugangsportalen zum Web unterscheiden, etwa "durch andere Bedienung, anderes Design, andere Themengebiete, andere Geschäftsmodelle". Bei letzteren sei es durchaus gewünscht, dass sie "in Konkurrenz zueinander stehen".

"Es können aber auch ganz andere Anwendungen als Suchmaschinen entstehen", schreiben die Befürworter eines freien Wissenszugangs. Plausibel sei etwa, dass durch die Auswertung von Linkstrukturen und deren Clusterbildungen neue Einsichten auf inhaltliche Zusammenhänge erwachsen. Dabei dürfte es sich zunächst um praktische Fragen wie die Variation in der Preisgestaltung für ein gleiches Produkt in Märkten weltweit handeln. Aber letztlich könnten selbst "grundsätzliche Erkenntnisprobleme der Menschheit" wie zu den Kategorien des Denkens in neuem Licht erscheinen.

Der offene Web-Index sei nach der Erfindung der Druckerpresse, des Rundfunks, des Computers, des WWW und der Suchmaschine "der nächste Schritt in der Evolution menschlichen Wissens", glaubt der Suma. Er erlaube den freien Zugang und Umgang mit Know-how. Es handle sich um "eine große, aber lösbare Aufgabe", den OWI zu erstellen und aktuell zu halten. Kostenschätzungen für den nötigen Aufwand begännen bei einigen hundert Millionen bis hin zu einigen Milliarden Euro, sodass ein EU-Gemeinschaftsprojekt im Sinne eines "IT-Airbus" nötig sei.

Entstehen soll laut dem Verein aber kein großer einzelner Konzern wie bei dem Flugzeugvorbild, sondern eine gewerbliche und nicht-kommerzielle pluralistische Anbieterlandschaft, die die Vielfalt aller europäischen Sprachen und Wissens widerspiegele. Am besten sei dafür ein Stiftungsmodell, was auch den notwendigen Nährboden für Internet-Startups bereiten würde.

Aus den aus dem OWI exportierten Daten ließen sich Trends jeglicher Art ablesen, bringt der Suma ein Beispiel für praktische Anwendungen: Welche Themen oder Kategorien interessierten momentan die Nutzer? Wo seien etwa politische Veränderungen erkenn- und vorhersagbar? Google habe mit "Flu-Trends" mit solchen Vorhersagemodellen zur Ausbreitung von Infektionskrankheiten bereits experimentiert. Künftig könnten aus den Strukturen und Inhalten des OWI aber etwa auch Systeme mit Künstlicher Intelligenz (KI) ihre Daten gewinnen und "so die Basis für eine Open-Source-KI schaffen".

Je mehr der OWI mit der Zeit von kommerziellen Betreibern genutzt werde, desto früher ist dem Verein zufolge ein Return on Investment zu erwarten. Eine sich selbst tragende Wirtschaftlichkeit dürfte nach ersten Schätzungen nicht vor Ablauf von rund fünf Jahren zu erwarten sein. Der OWI sei dabei nicht für Endnutzer zugänglich, sondern nur für Firmen oder Organisationen, die darauf aufsetzende Dienste anbieten. Er folge einem B2B-Modell. Nutzen könne ihn jede Firma oder Organisation, solange sie die Bedingungen unterschreibe und sich etwa an Vorgaben zum Datenschutz halte.

Auch im Detail hat der Suma schon konkrete Geschäftsvorstellungen: Die Datensätze erhielten ein Pre-Ranking, Ergebnislisten würden also teils vorgefertigt, führt der Metager-Betreiber aus. Diese Voreinstufung könne etwa auch von OWI-Kunden gesteuert werden. Klienten erhielten auf Abfragen mit Millionen möglicher Antworten im Normalfall zunächst nur die ersten 1000 Treffer. Jeder Kunde habe anfangs "ein begrenztes Freikontingent an Antworten. Ab einem zu definierenden Limit wird die Abfrage kostenpflichtig."

Eventuell wird der klassische Index-Gedanke fürs Web aber auch durch eine neue Welle an Chatbots und Sprachmodellen wie ChatGPT über den Haufen geworfen, die mit KI traditionelle Suchmaschinen neu erfinden oder sogar ersetzen könnten. Obwohl bei diesen Instrumenten noch viel Raum für Verbesserungen bleibt, hat die ChatGPT-Demo das Google-Management laut der New York Times dazu veranlasst, die Alarmstufe Rot auszurufen [17]. Wie schon viele Silicon-Valley-Unternehmen vor ihm könnte der Suchmaschinenprimus sich einem enormen technologischen Wandel gegenüberstehen, der sein Geschäft komplett umkrempele.

Einfach übernehmen könne Google die Technologie im Gegensatz zu Microsoft [18] aber derzeit nicht, da sie sich zerstörerisch auf sein Modell auswirken dürfte und zudem noch zu viele Schwächen aufweise, hat die Zeitung in Erfahrung gebracht. In der Pipeline seien aber mindestens 20 KI-getriebene Produkte sowie ein eigener Chatbot [19]. Sogar die Google-Gründer Larry Page und Sergey Brin sollen in die Gegenoffensive involviert sein, obwohl sie sich 2019 aus dem aktuellen Geschäft zurückgezogen hatten.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes Video (Kaltura Inc.) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Kaltura Inc.) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung [20].

(tiw [21])


URL dieses Artikels:
https://www.heise.de/-7466867

Links in diesem Artikel:
[1] https://openwebsearch.eu
[2] https://metager.de/wsb/fhws/FAQ.pdf
[3] https://opensearchfoundation.org
[4] https://irights.info/artikel/warum-wir-einen-freien-web-index-brauchen/23017
[5] https://www.heise.de/news/Preis-fuer-Datenkraken-Big-Brother-Awards-in-pandemischen-Zeiten-6069079.html
[6] https://www.heise.de/thema/Missing-Link
[7] https://www.heise.de/Datenschutzerklaerung-der-Heise-Medien-GmbH-Co-KG-4860.html
[8] https://www.heise.de/news/400-Millionen-Euro-fuer-europaeische-Suchmaschine-Quaero-159381.html
[9] https://www.heise.de/news/IT-Gipfel-Quaero-heisst-jetzt-Theseus-127968.html
[10] https://www.heise.de/news/Forschungsprojekt-Theseus-ist-abgeschlossen-1433992.html
[11] https://www.aufruhr-magazin.de/digitalisierte-gesellschaft/freiheit-fuers-internet/
[12] http://commoncrawl.org/
[13] https://opensearchfoundation.org/ein-wichtiger-baustein-fuer-die-offene-suchinfrastruktur-serci-webcrawler-gestartet/
[14] http://stormcrawler.net
[15] https://www.uni-leipzig.de/newsdetail/artikel/leipziger-informatik-forscht-am-openwebsearcheu-2022-07-29
[16] http://www.webis.de/
[17] https://www.nytimes.com/2022/12/21/technology/ai-chatgpt-google-search.html
[18] https://www.heise.de/news/ChatGPT-Update-und-weitere-zehn-Milliarden-US-Dollar-von-Microsoft-7455298.html
[19] https://www.heise.de/news/ChatGPT-Hype-Google-will-sich-im-KI-Wettrennen-nicht-geschlagen-geben-7466242.html
[20] https://www.heise.de/Datenschutzerklaerung-der-Heise-Medien-GmbH-Co-KG-4860.html
[21] mailto:tiw@heise.de