Geheimniskrämerei bei Google?

Google läßt sich bei seiner Infrastruktur nicht gerne in die Karten schauen - vielleicht aus Furcht vor Konkurrenz

In Pocket speichern vorlesen Druckansicht
Lesezeit: 18 Min.
Von
  • Simson Garfinkel
Inhaltsverzeichnis

"Diesen Zahlen sollten Sie niemals trauen", sagte Martin Farach-Colton, Informatikprofessor an der Rutgers University, als er vor etwas mehr als einem Jahr einen Vortrag über seinen zwei Jahre dauernden Forschungsaufenthalt bei Google hielt. Dabei stellte er Statistiken zu der Suchmaschine vor, die er selbst als unglaubwürdig bezeichnete. Demnach beantwortet Google 150 Millionen Suchanfragen am Tag, erreicht bis zu 1000 Suchanfragen pro Sekunde, besitzt mehr als 10.000 Server, führt bis zu 4 sogenannte Tera-Ops pro Sekunde durch, indiziert drei Milliarden Web-Seiten und vier Milliarden Dokumente insgesamt und nutzt mehr als vier Petabyte an Festplattenkapazität.

Ein paar Leute im Publikum fingen bei dem Vortrag an zu lachen: Die Google-Zahlen machten keinen Sinn. Ich habe selbst nachgerechnet. Die "4 Tera-Ops pro Sekunde" bedeuten 4000 Milliarden Operationen pro Sekunde, ein Server schnellster Bauart erreicht rund zwei Milliarden Operationen pro Sekunde. Das würde also 2000 Servern entsprechen -- nicht etwa 10.000. Vier Petabyte an Festplattenspeicherplatz bedeuten auf 10.000 Server verteilt 400 Gigabyte pro Server. Die Zahl kann wieder nicht stimmen, weil Farach-Colton selbst behauptete, dass Google zwei 80-Gigabyte-Festplatten in jedem seiner Server betreibt.

Und dann sind da noch die 150 Millionen Suchanfragen pro Tag. Wenn das System maximal 1000 Anfragen pro Sekunde abfertigt, erhält man maximal 86,4 Millionen Suchanfragen pro Tag - oder sogar nur 40 Millionen Suchanfragen, wenn man davon ausgeht, dass das System höchsten den halben Tag lang voll ausgelastet ist. Egal wie man es auch dreht und wendet: Die Google-Zahlen sind inkonsistent.

"Diese Zahlen sind absurd klein", so Farach-Colton weiter, "Google gibt wesentlich geringere Zahlen an, als es der Wahrheit entspricht." Jedesmal, wenn ein Google-Mitarbeiter eine Präsentation zusammenstelle, erklärte er, überprüfe die Pressestelle den Vortrag im Vorfeld und frisiere die Zahlen nach unten. In Farrach-Coltons eigener Präsentation hätten anfangs 1000 Suchanfragen pro Sekunde als Minimal- und nicht als Spitzenwert gestanden. "Wir haben mehr als 10.000 Server. "Mehr" bedeutet in diesem Fall viel mehr."

Genauso wie Google schnell und scheinbar mühelos jede Frage beantworten kann, die man der Suchmaschine stellt, ohne dass der Nutzer irgendetwas von der Komplexität der Technik mitbekäme, will Google seine Konkurrenz darüber im Dunkeln lassen, wie schwer die Arbeit, die man leistet, tatsächlich ist. Würde Google bekannt geben, wie viele Seiten wirklich indiziert werden und wie viele Server in seinen Datacenters in der ganzen Welt stehen, wüssten Konkurrenten wie Yahoo!, Teoma oder Mooter schnell, wie viel Geld sie bräuchten, um den Marktriesen von seiner Spitzenposition zu vertreiben.

Google tut sich zuweilen selbst schwer, diese Strategie durchzuziehen. Als Urs Hölzle, Vizepräsident für Engineering bei Google, im November 2002 an der University of Washington eine Rede über die Linux Cluster der Suchmaschine hielt, wiederholte er die Zahl mit den 1000 Suchanfragen pro Sekunde, musste aber zugeben, dass der Wert an einem 25. Dezember um 2 Uhr morgens gemessen wurde - vor einem Jahr. Jedem im Saal war klar, dass Google schon im November 2002 wesentlich mehr Suchanfragen bearbeitet hat. Wie viele das tatsächlich waren, blieb persönlichen Spekulationen überlassen.

Die Fakten kommen aber langsam ans Licht. Im letzten November berichtete die New York Times, Google habe die Marke von 100.000 Servern überschritten. Sollte das stimmen, besitzt Google wahrscheinlich das größte Grid-Netzwerk auf dem gesamten Planeten. "Die Tatsache, dass Google Datacenter solcher Größe bauen und betreiben kann, ist allein schon erstaunlich", meint Peter Christy, Mitbegründer der NetsEdge Research Group, einer Marktforschungs- und Strategie-Firma im Silicon Valley. Christy, der selbst mehr als 30 Jahre in der IT-Industrie gearbeitet hat, zeigte sich erstaunt darüber, wie gigantisch Googles Infrastruktur ist -- und dass die Firma kompetent genug ist, sie zu betreiben: "Da kommt wohl niemand heran", so Christy.

Eines von Googles wichtigsten Erfolgsgeheimnisen dürfte in der Fähigkeit liegen, große und extrem dichte Rechner-Cluster zu betreiben. Der Grund, erklärt Marissa Mayer, Direktorin für Endkunden-Web-Produkte bei der Suchmaschine, liegt in den besonderen Startbedingungen von Google an der Stanford-University.

Statt sich ein paar schnelle Rechner zu besorgen, die bis zum Anschlag genutzt werden konnten, mussten die Google-Gründer Larry Page und Sergey Brin mit ausgedienten Maschinen aus der Informatikfakultät auskommen, wie Mayer auf einer Recruiting-Veranstaltung am MIT kürzlich erzählte. Page und Brin gingen also regelmäßig zum Lager, um zu sehen, wer neue Rechner bekam und fragten dann, ob sie die alten, nun nicht mehr benötigten Maschinen haben könnten. Von Anfang an mussten Brin und Page also verteilte Rechenoperationen entwickeln, die auf einem Netzwerk wenig zuverlässiger Rechner laufen würden.

Diese Philosophie steckt heute in der DNA der Firma. Google kauft die billigsten Rechner, die man bekommen kann und steckt sie in die unzähligen Racks in einem seiner sechs (oder auch mehr) Datacenter in der ganzen Welt. "PCs sind soweit verlässlich. Wenn man aber 1000 davon hat, wird täglich einer ausfallen", so Chefingenieur Hölzle. "Wenn man 10 Prozent mehr Rechner kauft, ist das aber immer noch billiger, als eine verlässlichere Maschine zu kaufen." Bei Google zu arbeiten, erzählte mir kürzlich ein Ingenieur, kommt dem Traum nahe, grenzenlose Rechenpower zur Verfügung zu haben.

Es gibt noch eine andere Firma, die das Betreiben einer riesigen Anzahl von Rechnern mit relativ wenigen Leuten perfektioniert hat. Diese Firma heißt Akamai.

Sie ist nicht überall bekannt, landete aber im November 1999 in den Schlagzeilen, als sie den (zur damaligen Zeit) vierterfolgreichsten Börsengang der Geschichte hinlegte. Akamais Aktien schossen nach oben und machten die Gründer zu Milliardären. In den Jahren danach ging es mit Akamai jedoch bergab -- und zwar nicht nur wegen des "Dot-Com"-Crashs. Die Firma entließ Mitarbeiter und verkaufte ihren Firmensitz in Kalifornien auch deshalb, weil Danny Lewin, Technologiechef und Mitbegründer von Akamai, am 11. September an Board eines der beiden Flugzeuge war, die in das World Trade Center stürzten. Die Moral der Firma war zerstört.

Akamais Netzwerk ist ungefähr so komplex wie das von Google. Obwohl Akamai nur 14.000 Server betreibt, stehen diese an 2500 Orten auf der ganzen Erde. Die Server werden von Kunden wie CNN oder Microsoft benutzt, um Webseiten auszuliefern. Akamais Rechner werden genauso wie die von Google von fast jedem Internet-Nutzer auf der Welt genutzt.

Wegen ihrer großen Infrastruktur mussten sowohl Akamai als auch Google Werkzeuge und Techniken entwickeln, um diese Maschinen zu managen, Performance-Problemen auf die Schliche zu kommen und mit Fehlern schnell umzugehen. Solche Software kann man nicht kaufen, sie muss mit großer Anstrengung im eigenen Haus entwickelt werden. So gilt Akamais eigene Software als einer seiner wichtigsten Wettbewerbsvorteile.

Natürlich gibt es auch noch andere US-Organisationen, die große Rechen-Cluster betreiben. Sowohl das Ames Research Center der NASA als auch die Hochschule Virginia Tech besitzen große Wissenschafts-Grids. Aber es gibt wichtige Unterschiede zwischen diesen und denen, die Google und Akamai gebaut haben. Die Wissenschaftssysteme stehen an zentralen Orten und sind nicht um die halbe Welt verteilt. Sie hängen nicht direkt am Internet. Und, was wahrscheinlich das wichtigste ist: Die Wissenschafts-Cluster sind nicht Tag für Tag dem Ansturm Millionen gewöhnlicher Internet-Benutzer ausgesetzt. Google und Akamai müssen dagegen zu 100 Prozent verfügbar sein -- jederzeit. Es ist einfach, 10.000 Rechner zu kaufen, wenn man das nötige Geld hat. Es ist jedoch etwas ganz anderes, diese Computer zu einem funktionierenden Dienst für Millionen simultaner Nutzer zusammen zu stellen.

Es gibt allerdings entscheidende Unterschiede zwischen Akamai und Google, die sicherstellen, dass sich die beiden Firmen nicht in die Quere kommen. Sowohl Google als auch Akamai haben riesige Parallelrechner aufgebaut, aber die Anwendungen, die sie laufen lassen, sind völlig verschieden. Googles Hauptanwendung ist die Suchmaschine. Akamai hat hingegen ein System entwickelt, um Web-Seiten, Streaming-Inhalte und eine Reihe anderer Standard-Internet-Dokumente auszuliefern.

Ein weiterer großer Unterschied liegt laut dem Experten Christy darin, dass Akamai es sehr schwer hatte, ein klares Geschäftsmodell zu finden, das tatsächlich funktioniert, während Google "unglaublich erfolgreich" gewesen sei. Akamai denkt daher über neue Wege nach, um Dienste anzubieten, die nur auf seiner riesigen Infrastruktur laufen können. Um schwarze Zahlen zu schreiben sucht die Firma aggressiv nach neuen Anwendungsfeldern für ihre Technologie. Auch das dürfte ein Grund dafür sein, warum Akamai, anders als Google, kein Problem damit hatte, sich mit mir für diesen Artikel zu unterhalten.

"Wir haben mit der Auslieferung einfacher Dinge angefangen - Objekte, Fotos, Banner und Anzeigen", so Tom Leighton, Chefforscher bei Akamai. "Das tun wir vor Ort. Schnell und zuverlässig. Websites werden so verbessert."

Derzeit entwickelt Akamai eine Technologie, mit der Kunden Anwendungen direkt auf seinen verteilten Servern laufen lassen können. 25 seiner größten Kunden hätten dies bereits ausprobiert, so Leighton. Das System kann plötzliche Lastschübe verkraften, was es ideal für Fälle macht, bei denen der Ansturm auf ein Internet-Angebot unmöglich vorhersehbar ist.

Beispielsweise wurde das Akamai-Netz kürzlich für ein Gewinnspiel des Tastaturherstellers Logitech benutzt. Weil man dachte, dass dies gut ankommen würde, legte Logitech genau fest, wie viele Tastaturen man verschenken wollte und wann das im Rahmen des Gewinnspiels passieren sollte. Dummerweise unterschätzte die Firma vollkommen, wie viele Leute an dem Contest teilnehmen würden. In der Vergangenheit brachen groß angekündigte Internet-Events wie etwa der Webcast des Unterwäsche-Herstellers "Victoria's Secret" regelmäßig zusammen, was zu viel Frust unter Millionen von Web-Benutzern führte - und für die Betreiber immer peinlich war. Dieses Mal aber nicht: Logitechs Wettbewerb lief auf dem Akamai-Netzwerk ohne Probleme.

Natürlich hätte Logitech versuchen können, ein solches System selbst aufzubauen. Man hätte einen Server bauen und testen können, der 100 gleichzeitige Nutzer verkraftet - zum Preis von 5000 Dollar. 20 dieser Server hätten 100.000 Dollar gekostet. Sie wären dann in ein Datacenter gestellt worden, das vielleicht schnell überlastet gewesen wäre. Also hätte man 10 der Server an die Ostküste und 10 der Server an die Westküste gestellt. Doch ein solches System hätte nach wie vor nur 2000 gleichzeitige Nutzer verkraftet; 100 Server für 500.000 Dollar in zehn verschiedenen Datacentern wären also schon besser gewesen. Und selbst dann hätten die Logitech-Ingenieure nicht gewusst, ob das System im Ernstfall funktionieren würde. Und die Technik samt Ingenieurleistung wäre nach dem Gewinnspiel praktisch nutzlos gewesen.

Solche Event-Aktionen sind nicht das einzige, was man mit Akamais Netzwerk machen kann. Fast jedes in der Internet-Sprache Java verfasste Programm kann auf der Infrastruktur laufen. Das System verarbeitet Kreditanträge, Kataloge oder Online-Shopping. Akamai erledigt sogar den kompletten Backend-Betrieb für Apples Online-Musikladen iTunes Music Store.

Die Firma ist sehr stolz auf ihr System - und legt vielleicht deshalb seine technischen Details so offen auf den Tisch. Akamais Network Operation Center (NOC) in Cambridge besitzt eine Glaswand, durch die die Besucher auf große Bildschirme mit Statistiken schauen können. Als ich im Januar vorbeisah, stand auf dem Bildschirm, dass Akamai gerade 591.763 "Hits" pro Sekunde ausliefere. 14.372 CPUs waren online - mit insgesamt 14.563 Gigahertz Taktfrequenz. 650 Terabyte an Speicherkapazität waren verfügbar. Am 14. April lag die Hit-Zahl in der Spitze bei 900.000 pro Sekunde. 43,71 Milliarden Anfragen wurden in 24 Stunden bearbeitet. (Die neue Anzahl an CPUs wurde zu diesem Zeitpunkt nur deshalb nicht genannt, weil sie in Akamais Quartalsbericht folgen sollte, der am 28. April erscheint. Sie soll sich aber kaum verändert haben, wie mir ein Sprecher sagte.)

Sowohl für Google als auch für Akamai ergeben sich in den nächsten Jahren diverse Geschäftschancen. So könnten beide Firmen ihre Erfahrung beim Bau riesiger verteilter Cluster dazu nutzen, ein gigantisches Backup-System für kleine Firmen und PC-Nutzer zu Hause zu errichten. Oder sie könnten die Heim-PCs zu "Smart Terminals" machen, bei denen die Anwendungen auf entfernten Servern laufen. PC-Benutzer müssten dann ihre eigenen Maschinen nicht mehr administrieren, keine Software mehr installieren und auch nicht ständig ihre Anti-Viren-Programme auf dem neuesten Stand halten.

Außerdem ist da ja noch E-Mail-Geschäft. Am 1. April gab Google bekannt, dass man in das Endkunden-Geschäft mit elektronischer Post einsteigen werde. "Suchaktionen stehen bei den Internetaktivitäten an zweiter Stelle, E-Mails hingegen sind die Nummer eins." Grund genug für die Google-Gründer, sich an diesem Geschäft zu beteiligen.

Seither hat Google mit seinem neuen "Gmail"-Angebot (was für "Google Mail" steht) für viel Wirbel in der Presse gesorgt. Der kostenlose Dienst verspricht ein Gigabyte an Speicherplatz (hundert Mal mehr als bei anderen Webmail-Anbietern), eine Google-mäßige Suchfunktion und die Aussicht, nie wieder E-Mails löschen zu müssen. Anfangs dachten viele Beobachter an einen Aprilscherz, weil ein Gigabyte Speicher pro Benutzer utopisch erschien. Aber weil die große Mehrheit soviel Speicherplatz gar nicht braucht, bedeutet Googles Versprechen eigentlich nur, dass Google neue Festplatten schneller kaufen kann als die Internet-Benutzer sie füllen. [Anm. d. Übers.: Gmails Werbefinanzierung durch kontextsensitiv eingeblendete Anzeigen sorgte für viel Verdruss bei Datenschützern. In einem Brief, den auch Simson Garfinkel unterschrieb, wurde Google aufgefordert, den Dienst erst dann öffentlich zu starten, wenn Datenschutzprobleme aus dem Weg geräumt sind.]

Googles Infrastruktur eignet sich für einen Dienst wie Gmail sehr gut. Letzten Sommer veröffentlichten Google-Wissenschaftler ein Paper, in dem es um das so genannte "Google File System" ("GFS") ging. Mit dieser Technik ist es für Google möglich, auf Daten im ganzen Cluster mit hoher Geschwindigkeit zuzugreifen und sie darin zu replizieren. Dank GFS befinden sich die E-Mails eines Benutzers auf mehreren Google-Systemen - wenn er sich einloggt, wird sein Browser automatisch zu demjenigen Cluster gelenkt, der ihm am nächsten ist.

Diese Technologie gut hinzukriegen, ist verdammt schwer -- und entspricht exakt der Art von SYstem, das Akamai in den letzte sechs Jahren entwickelt hat. Tatsächlich gibt es keinen Grund, warum Akamai prinzipiell nicht ein ähnliches "large scale"-E-Mail-System aufbauen könnte –- außer der Philosophie des Unternehmens.

Leighton glaubt nicht, dass Akamai in Zukunft mit Endkunden zu tun haben wird. Es sei wahrscheinlicher, dass Akamai die Infrastruktur für eine andere Firma aufbaut, die selbst Rechnungsstellung, Kundensupport und Marketing für Endkunden übernimmt. "Unser Fokus bleibt bei den Geschäftskunden", so Leighton.

George Hamilton, ein Analyst bei der Yankee Group, der Enterprise-Computing und Netzwerk-Anwendungen beobachtet, stimmt dem zu. Er glaubt nicht daran, dass Google mit Akamai konkurrieren werde. Google könne allerdings Akamai dazu nutzen, seine eigene Technik zu ergänzen.

Eine solche Partnerschaft gilt oberflächlich betrachtet aber als unwahrscheinlich. Google könnte Akamai kaufen - so ähnlich, wie man im Februar 2003 den Blogger.com-Betreiber Pyra kaufte. Aber Akamais offene Firmenkultur passt nicht so gut zu Googles Geheimniskrämerei. Auch kommen 20 Prozent der Akamai-Umsätze von Microsoft, wie dem letzten Quartalsbericht aus dem vergangenen November zu entnehmen ist. Googles Konkurrenz zu Microsoft bei der Internet-Suche (und nun auch bei E-Mail) ist weitläufig bekannt, daher gilt es als unwahrscheinlich, dass man mit einem Microsoft so nahe stehenden Unternehmen wie Akamai zusammenarbeitet.

Ted Schadler, Vizepräsident bei der IT-Marktforschungsfirma Forrester, hält einen Wettbewerb beider Unternehmen für möglich, weil sie beide im Bereich des massiven verteilten Rechnens arbeiten. "In diesem Sinne haben sie die gleiche Vision. Sie müssen beide ähnliche Technologien aufbauen, weil diese bislang nicht existieren. Sie haben viele ähnliche Lektionen gelernt - sowohl bei der Technik als auch bei den Geschäftsmodellen."

Schadler nennt Akamai und Google Beispiele für so genannte "programmierbare Internet-Geschäftskanäle". Diese Kanäle besitzen eine große Infrastruktur, die qualitativ hochwertige Dienste an Hunderte von Millionen Internet-Benutzern "auf Knopfdruck" ausliefern kann. Google und Akamai sind solche Firmen, aber auch Amazon.com, eBay und sogar Yahoo!. "Das sind alles Dienste, die geschäftliche Aktivitäten erst ermöglichen. Ihr Grundangebot lässt sich problemlos skalieren."

"Wenn ich wetten müsste, würde ich darauf tippen dass sich Google mehr für den Endkunden interessiert und Akamai mehr für das Bereitstellen der Infrastruktur - es ist wie ein Einzelhändler gegen einen Großhändler. Retail-Dienste wird es aber viele geben."

Wenn das stimmt, müsste Google womöglich plötzlich gegen eine andere Firma antreten, die, genauso wie die Suchmaschine selbst, praktisch aus dem Nichts kommt. Die Tricks, wie man selbst eine solch riesige Infrastruktur betreibt, müsste diese nicht mehr lernen. Kein Wunder, dass Google immer so geheimnisvoll tut.

Von Simson Garfinkel; Übersetzung: Ben Schwan. (kar)