Die Such-Zeitmaschine

Das Internet Archive ermöglicht jetzt eine Volltextsuche in seinem Web-Archiv; die Suchergebnisse werden durch Bewertung des Kontexts angeordnet.

In Pocket speichern vorlesen Druckansicht 71 Kommentare lesen
Lesezeit: 2 Min.
Von
  • Janko Röttgers

Das in San Francisco ansässige Internet Archive hat jetzt mit einem Beta-Test seiner neuen Suchmaschine namens Recall begonnen. Recall ermöglicht es, insgesamt 11 Milliarden archivierte Webseiten nach Stichwörtern zu durchsuchen. Der Gesamt-Datenbestand umfasst nach Angaben der Recall-Entwicklerin Anna Patterson 0,5 Petabytes. Der Suchindex ist demnach bereits 2 Terabytes groß. Bisher lassen sich erst Seiten ab dem Januar 1996 durchsuchen. Innerhalb dieses Zeitraums kann die Suche jedoch beliebig zeitlich eingeschränkt und präzisiert werden.

Recall unterscheidet sich fundamental von anderen Suchmaschinen, da es seinen Index nicht anhand der Verlinkungshäufigkeit einer Website bewertet. Stattdessen werden die Suchergebnisse durch Bewertung des Kontexts angeordnet, in dem sie auf der jeweiligen Seite genannt werden. Außerdem wird erstmals auch die Popularität eines Suchbegriffs zeitlich ausgewertet. So zeigt eine Grafik an, wann der jeweilige Suchbegriff am häufigsten im Web zu finden war. Eine zweite Grafik stellt die Popularität von mit dem Suchbegriff verwandten Themen dar. Wer beispielsweise nach "Iraq" sucht, erfährt so automatisch, dass der Begriff im Zeitraum von 1996 bis 1998 sehr oft im Zusammenhang mit Kurden genannt wurde. Während diese ab 1999 kaum noch im Web Erwähnung fanden, tauchten seit Januar 2000 immer mehr Webseiten auf, die über einen möglichen Krieg mit dem Irak spekulierten.

Die Suchmaschine versucht zudem, jedem Begriff Kategorien und Themen zuzuordnen, die ein weiteres Spezifizieren der Suche erlauben. So lässt sich etwa die Irak-Suche auf UN-Waffeninspektoren oder auch den Nordirak einschränken. Bisher wurden rund 50.000 Kategorien angelegt, die insgesamt 1.4 Millionen Suchbegriffe beinhalten. In Zukunft soll Recall schließlich auch noch um eine Personalisierungsmöglichkeit erweitert werden. Dann wird sich die Suchmaschine die vergangenen Suchen merken und diese in die Bewertung der weiteren Suchergebnisse einbeziehen. Außerdem sollen sich die Beschreibungen der Suchergebnisse abhängig von dem Profil des jeweiligen Nutzers unterscheiden.

Das Internet Archive wurde 1996 als Non-Profit-Organisation gegründet. Finanziert wird es im Wesentlichen vom Alexa-Gründer Brewster Kahle, der seine Firma 1999 für einen dreistelligen Millionenbetrag an Amazon.com verkaufte. Seit 2001 bietet das Archiv im Zusammenarbeit mit Alexa den Abruf alter Versionen zahlreicher Webseiten über sein Wayback-Angebot an. Bisher ließ sich dieser Datenbestand jedoch nicht nach Stichwörtern durchsuchen. (Janko Röttgers) / (jk)