Mit Google durchs WWW

27. Februar 2001 Christiane Schulzki-Haddouti

Was die immer populärer werdende Suchmaschine vom Rest der Welt unterscheidet

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Eine kleine, unscheinbare Suchmaschine hat sich in wenigen Monaten vom Geheimtipp zum Renner entwickelt: Google. Mitte Februar landete Google einen Coup: Es übernahm das Usenet-Archiv von Deja.com. Nicht erst damit ist Google die größte und intelligenteste Suchmaschine im Netz.

Stolpert man rein zufällig über die Suchmaschine, könnte man meinen, man hat sich auf den Suchdienst irgendeiner Universität verirrt. Bis auf ein einsames Eingabefeld und das Google-Logo ist nichts zu sehen. Keine Kataloge, keine Nachrichten, kein Übersetzungsdienst, keine Werbung - kein Portal. Google kennt nur eins: Das Suchen von Informationen. Erstaunlich für den Erstnutzer: Oft stehen die relevanten Ergebnisse an erster Stelle.

Google arbeitet mit einer ganzen Reihe von Tricks, um seine Nutzer nicht zu frustrieren. Sein Haupttrick: Es bewertet die Webseiten als wichtig, auf die viele andere Webseiten verweisen. Die Seite, auf die am häufigsten verwiesen wird, steht ganz oben. Auf diese Weise macht Google auch Nachbarschaften aus: Als "ähnliche Seite" von Telepolis findet man zum Beispiel c'theory. In der Nachbarschaft des Handelsblatts hingegen findet man andere Wirtschaftszeitungen und -magazine.

Entwickelt wurde Google vom Computeringenieur Lawrence Page und dem Mathematiker Sergey Brin. Sie lernten sich an der Stanford University kennen, wo sie "einen Prototypen für eine umfassende Suchmaschine" entwickelten. Der Prototyp mit 24 Millionen Seiten samt Hyperlink-Datenbank war 1997 zunächst auf einem Server der Stanford-Universität zu bewundern. Heute ist Google eine florierende Firma. Rund 40 der 200 Mitarbeiter von Google haben einen Doktortitel, die Hälfte ist im Software-Engineering tätig.

Auf Erfolgskurs

Ohne Werbung, nur durch Mundpropaganda entwickelte sich Google in Europa rasch zum Geheimtipp. In einem Suchmaschinentest vom Februar 2000 lag Google in der Kategorie "Qualität" bereits auf Platz 2 hinter Altavista.com. Im Januar 2001 lag die Firma mit 8,8 Millionen Besuchern auf Platz 25 der US-Websiteliste von Media-Metrix und die fünftbeliebteste Suchmaschine. Auf den europäischen Listen taucht sie noch nicht auf. Das dürfte nicht mehr lange so bleiben. In den USA ist sie eine der am schnellsten wachsenden Sites.

Index-Gigant Google

Je umfangreicher der Index einer Suchmaschine, desto eher können abgelegene Themen auch gefunden werden. Vor einem Jahr war der Google-Index noch 150 Millionen Seiten lang. Im Winter 2000 holte sie auch im Indexierungswettlauf gegen Konkurrenten wie Altavista und Inktomi auf: Jetzt erfasst sie die meisten Websites überhaupt: Im November wurden 602 Millionen Webseiten von ihr laut Searchenginewatch.com indexiert. Altavista kannte hingegen gerade einmal 350 Millionen. Noch vor fünf Jahren war es jedoch Altavista gewesen, die jede andere Suchmaschine mit ihrer Indexlänge ausgestochen hatte.

Bis Herbst 1997 hatte sich am Umfang der Suchmaschinen wenig verändert - obwohl das Web ständig wuchs. Die NEC-Studie diagnostizierte im September 1998 eine gravierende Verschlechterung. Ein Jahr später stellten die Autoren für die Wissenschaftszeitung "Nature" fest, dass keine Suchmaschine mehr als 16 Prozent des öffentlich indexierbaren Webs abdeckt. Damals zählten sie 800 Millionen öffentliche Webseiten. 83 Prozent der Sites enthielten kommerzielle Inhalte, nur 6 Prozent beziehen sich auf Inhalte aus Bildung und Forschung.

Ab Ende 1997 begannen die Suchmaschinen einen Wettlauf um den besten Webzugriff. Zunächst Altavista gegen Inktomi, Northern Light und FAST Search, schließlich FAST Search gegen Google. Da Google jedoch auch Links berücksichtigt, erfasst es mit seinen 602 Millionen Indexeinträgen auch Seiten, die es selber nie besucht hat. Damit deckt es heute rund 1,2 Milliarden Seiten ab - im Juli 2000 wurde der Umfang des Webs auf 2 Milliarden Seiten geschätzt.

Mitte Februar landete Google den Coup: Es übernahm das Usenet-Archiv von Deja.com mit mehr als 500 Millionen Einträgen seit 1995. Im Feuer des Gefechts erschloss es aber erstmal mit der hauseigenen Technik nur die Beiträge, über die es selbst im eigenen Archiv verfügte - was zu erheblichen Irritationen führte. Wen wundert es noch, dass Google auch seinen Index für WML- und HDML-Seiten für WAP-Browser aufgestockt hat - auf 2,5 Mililionen Seiten.

Google-Ware

Das Google-Archiv belegt heute komprimiert mehrere hundert Terabyte Festplattenplatz. Der älteste Eintrag im Index ist rund 30 Tage alt. Praktisch: Neben dem Index speichert Google auch die Webseiten selbst, um bei den Treffern die entsprechenden Suchbegriffe in einer Art Kurzzusammenfassung darstellen zu können.

Hinter Googles schlichter Fassade steckt ein gewaltiger Hardware-Park: Rund 7000 PCs sind auf 5 Standorte an der West- und Ostküste der USA verteilt. Sie bilden die Hardware-Ausstattung von Google. Sie laufen unter dem Betriebssystem Linux und werden von einer kleinen Firma extra für Google assembliert. Hardware und Software sind für die Parallelverarbeitung ausgelegt. 70 Millionen Abfragen muss der Hardware-Park von Google inzwischen jeden Tag abfertigen.

Anders als die Portale Altavista.com oder Yahoo.com fungiert der Suchdienst selbst als riesiges Werbeportal für die Firma Google - und sonst für niemanden. Google lizenziert ihren Suchdienst an andere Firmen, wie zum Beispiel Cisco, die ihre eigenen Websites damit erschließen. Aber auch Internetportale haben sich bereits zu einer Google-Lizenz entschlossen. Im letzten Sommer entschloss sich sogar das amerikanische Yahoo-Portal, seine Suchmaschine mit Google-Technik auszurüsten - und sich von Inktomi zu verabschieden. Für Farzad Nazem, Chef der Entwicklungabteilung bei Yahoo war klar: Google bietet derzeit die beste Suchtechnologie.

Allerdings scheint auch bei Altavista ein gewisse Ernüchterung einzukehren: Im September 2000 beschlossen Altavista und Go sich vom Konzept der Superportale und Alleskönner zu verabschieden - und läuteten damit eine weitere Konsolisierungsrunde unter den Suchmaschinen ein. Zwar tolerierten viele Nutzer die schwachen Suchergebnisse einiger Suchportale - doch spätestens das Google-Konzept zeigte, dass für den Erfolg nur die Qualität der Kernkompetenz überzeugt. Für manche Nutzer reduziert sich das auf zwei Klicks: Bei Google suchen, bei Altavista-Babelfish übersetzen.

Frustrierende Suchmaschinen

Der Ausgangspunkt für die Entwicklung von Google war klar: Die Suchmaschinen fanden nicht auf Anhieb das, was sie finden sollten: Im November 1997 fand nur eine von vier großen kommerziellen Suchmaschinen sich selbst, das heißt, sie fand ihre eigene Webseite in dem Suchergebnis in den Top-Ten. Die Kategorisierung nach den Suchbegriffen genügte deshalb nicht. Werkzeuge mit einer viel höheren Präzision waren notwendig.

Während handgepflegte Listen wie Yahoo oft populäre Themen zwar sehr gut abdecken, bleiben sie dennoch immer subjektiv. Sie sind teuer im Aufbau und Unterhalt und können nur langsam verbessert werden. Außerdem können sie nicht alle esoterischen Themen abdecken. Automatisierte Suchmaschinen hingegen bezogen sich vor Google auf Schlüsselwörter, was jedoch angesichts des rasant wachsenden Netzes zu immer schlechteren Ergebnissen führte.

Hinzu kam: Werbetreibende missbrauchten diesen Suchmechanismus und verfälschten die Ergebnisse der Suchmaschinen. Das Problem wurde bis heute nicht wirklich gelöst. Die Suchmaschinenbetreiber, darunter selbst auch Google, haben inzwischen ein eigene Werbesysteme eingeführt - mit jeweils unterschiedlichen ethischen Grundsätzen. Zuletzt freundete sich sogar Yahoo mit bezahlten Listings an - und führte Anfang Februar das Programm "Sponsored Sites" ein. Damit werden bezahlte Site-Listings ganz oben auf den kommerziellen Yahoo-Listings aufgeführt. Allein bei Yahoo werden die bezahlten Einträge jedoch vom normalen Suchalgorithmus nicht anders bewertet. Excite bleibt damit die letzte Suchmaschine, die noch keine bezahlten Listen führt.

Ranglisten über Links

Die Google-Entwickler Brin und Page setzten nicht auf Schlüsselwörter oder persönliches Ranking, sondern auf Links. Sie schufen Karten, die die Vernetzung über Hyperlinks wiedergaben. Denn von den Linkstrukturen versprachen sie sich mehr relevante Informationen. Auf diese Weise konnten sie ein Page-Ranking erzielen. Das Vorgehen ähnelt dem, wie man den Ruf eines Wissenschaftlers ermittelt: Je häufiger seine Artikel und Werke zitiert werden, umso angesehener wird er. Die Zitate sind auch ein Hinweis auf die Qualität dieser Werke. Auf das Web bezogen geben sie wieder, wie gut oder wie angesehen eine Website tatsächlich ist.

Das Page-Ranking von Google entspricht aber auch dem Surfverhalten: Ein Zufallssurfer, der bei einer Webseite anfängt und sich über Links weiterklickt, langweilt sich irgendwann und beginnt schließlich wieder mit einer neuen Zufallsseite. Die Wahrscheinlichkeit dafür, dass dieser Zufallssurfer eine Seite besucht, bestimmt ihren Rang.

Eine andere Methode des Page-Rankings von Google besteht darin festzuellen, welche Seiten zu einer anderen Seite verweisen. Dabei bestimmt die Ranghöhe dieser Seiten wiederum die Ranghöhe der anderen Seiten. Wenn eine Seite nur einen einzigen Link von einer Site wie Yahoo erhält, wird sie dadurch im Ranking etwas höher gehoben. Über das Page-Ranking werden die Ranghöhen der Seiten immer wieder untereinander angeglichen.

Dieselbe Vorgehensweise gilt auch für die so genannten Ankertexte: Ankertexte sind die standardmäßig blau unterstrichenen Texte, mit denen ein Link auf eine andere Webseite verweist. Diese Ankertexte liefern oft eine exaktere Beschreibung der Webseite als die Webseite selbst. Zudem gibt es manche Links, die auf Dokumente verweisen, die nicht über eine textbasierte Suchmaschine indexiert werden können: Bilder, Programme und Datenbanken. Über Ankertexte können Webpages gefunden werden, die nicht durch Crawler erfaßt werden können. Bei der Erfassung von Ankertexten müssen jedoch wesentlich größere Datenmengen verarbeitet werden: Von 24 Millionen Seiten ihres Prototypen mussten Brin und Page über 259 Milllionen Ankertexte indexieren.

Google verfügt noch über weitere Features. Es merkt sich die Hits und generiert darüber Suchwahrscheinlichkeiten. Zudem gewichtet es auch visuelle Darstellungen: Wörter, die fett oder größer dargestellt sind, werden höher gewichtet als andere Wörter. Im letzten Jahr sind eine Menge zusätzlicher Features wie die Bool'schen Operatoren hinzugekommen.

Seit kurzem kann Google auch alle PDF-Dokumente durchsuchen und ist aufgrund seiner größeren Datenbasis, die 13 Millionen PDF-Dateien umfasst, sogar eine bessere Alternative als Adobes eigener Suchservice mit nur 1 Million Dateien. Die PDF-Dokumente lassen sich über Google auch als Text-Dateiene abrufen. Adobe ist dennoch nicht ganz aus dem Rennen: Die Suchmaschine liefert nicht nur eine Textzusammenfassung samt Schlüsselwörter, sondern wartet auch mit dem praktischen Feature "ähnliche Seiten" auf.

Perfekt ist Google dennoch nicht: Bei der Suche nach den neuesten Nachrichten zieht Google immer noch den kürzeren.