Web-Crawler für alle

Ein Start-up nutzt nicht ausgelastete Heim-PCs, um das Netz ganz nach Kundenwunsch zu durchkämmen.

28.09.2009, 08:01 Uhr

Lesezeit: 5 Min.

Von

Erica Naone

Die Menge an im Netz verfügbaren Daten steigt und steigt. Dabei stellt sich immer häufiger die Frage, wie man diese Informationen am besten zugänglich macht. Suchmaschinen sind eine Möglichkeit, doch sind sie nicht immer auf dem neuesten Stand. Ein Start-up namens 80legs aus Houston, Texas, glaubt nun, eine Lösung gefunden zu haben: Die Firma vermietet Suchroboter, die nach persönlichen Vorgaben Teile des Web durchkämmen. Riesige Server-Farmen, wie sie bei Google und Co. stehen, sollen dafür nicht mehr nötig sein; stattdessen wird verteilte PC-Technik eingesetzt. 80legs stellte seinen Dienst auf der Start-up-Konferenz "DEMOfall" vor, die in der vergangenen Woche endete.

Suchroboter, auch Spider oder Crawler genannt, sind Programme, die automatisch Seiten im Web aufsuchen und diese dann in einen Index aufnehmen. Das Problem: Die Größe, die das Web inzwischen angenommen hat, macht es zunehmend schwierig, alle Seiten in ihrer Gesamtheit abzusuchen – das kostet schlicht zu viel Rechenleistung. Genau deshalb muss etwa Google seine Infrastruktur ständig ausbauen.

80legs zeigt nun, dass es auch anders geht: Die Firma will die Technologie auch kleinen Firmen und Einzelpersonen zugänglich machen, die dann nur dafür zahlen, was der Crawler tatsächlich leistet. Bei 80legs erwartet man sich neben Nutzern, die sich für Suchverfahren und Web-Semantik interessieren, auch ganz normale User mit weniger technischem Interesse. Marktforscher könnten 80legs beispielsweise nutzen, um die Erwähnung bestimmter Firmen und Themen im Web zu untersuchen – und zwar viel schneller als bei Google.

Der Nutzer kann seinen gewünschten Crawl-Durchgang über ein Web-Interface einleiten. Dort lassen sich Parameter einstellen oder auch eigener Programmcode hochladen, der dann bestimmt, wie der Suchroboter vorgeht. Beispielsweise könnte jemand 80legs benutzen, um auf die Jagd nach urheberrechtlich geschützten Bildern zu gehen. Dann würde der Crawler alle gefundenen Aufnahmen gegen eine Datenbank mit Copyright-Informationen checken.

80legs-CEO Shion Deysarkar erläutert, dass die Technik der Firma bis zu zwei Milliarden Seiten am Tag bearbeiten kann. Dabei werden für jede Million gecrawlter Seiten 2 Dollar fällig, plus drei Cent pro Stunde für die abgerufene Rechenleistung.

Interessant ist auch die Art, wie 80legs crawlt. Statt ein Rechenzentrum einzusetzen, wird eine Software verwendet, die auf einem verteilten Netzwerk aus einzelnen PCs läuft, ähnlich wie man es vom SETI@home-Projekt zur Jagd nach außerirdischen Signalen kennt. Das verteilte System wurde vom Dienstleister Plura Processing aufgesetzt und dann an 80legs vermietet. Plura wiederum gibt Computernutzern, die nicht benötigte Rechenleistung abgeben, unter anderem Zugriff auf spezielle Spiele oder spendet im Gegenzug Geld an eine gemeinnützige Organisation.

Deysarkar zufolge reduziert das die Kosten von 80legs erheblich. Hätte das Unternehmen eigene Rechenzentren, wäre der Dienst deutlich teurer, selbst Cloud-Computing-Plattformen wie Amazon Web Services seien nicht preiswert genug.

Daniel Tunkelang, Mitbegründer der Suchfirma Endeca aus dem amerikanischen Cambridge, glaubt, dass ein guter Crawling-Dienst Start-ups, die sich allein auf die Suchschnittstelle und nicht auf die Beherrschung des Datenbergs namens Internet konzentrieren wollen, hervorragende Dienste leisten könnte. Der Erfolg von 80legs hänge aber davon ab, wie einfach es sei, den Crawl-Durchgang anzupassen. "Die große Frage ist, wie anpass- und programmierbar das alles ist."

Tunkelang wirft außerdem ein, dass es wichtig sei, dass ein Crawler so viele Informationen sammeln könne wir möglich. Beispielsweise liefert schon der Pfad, den der Suchroboter nimmt, um auf einer bestimmten Seite zu landen, wichtige Hinweise über den Inhalt eines Angebots.

Ein Dienst wie 80legs könnte auch für universitäre Forscher spannend sein. "Im großen Stil zu crawlen, ist in der Tat eine teure Hürde, wenn es um experimentelle Suchprojekte im akademischen Bereich geht ", meint auch Kevin Chang, Dozent für Computerwissenschaften an der University of Illinois in Urbana-Champaign. Es fehle an der Infrastruktur.

Chang glaubt, dass der verteilte Ansatz von 80legs eine "interessante Richtung" sei. Die Idee könne die Kosten für Crawling-Durchgänge verringern. Gleichzeitig glaubt der Experte aber auch, dass viel von der Effizienz des Systems abhängt – genauso wie von der Anpassbarkeit, welche Daten verarbeitet werden sollen.

80legs plant einen Online-.Markt, auf dem nichttechnische Nutzer die Möglichkeit erhalten werden, Anwendungen zu kaufen, die bereits die gewünschte Crawler-Funktionalität beherrschen. Partnerfirmen werden außerdem über eine Programmierschnittstelle eigene Anwendungen entwickeln können. (bsc)