Jäger und Sammler

Die wunderbaren Wissensquellen im Internet - und mit einem Mausklick sind sie auf dem heimischen Rechner. Gut zu wissen, wo und wie der Reichtum anzuzapfen ist.

1

16.11.1994, 02:00 Uhr

Lesezeit: 24 Min.

iX Magazin

Von

Henning Behme

Spätestens seit der Erfolgswelle World Wide Web (WWW), auf der das Internet momentan millionenfach auf PCs und Workstations schwappt, ist die Frage nach der Auffindbarkeit von Information im (modischen) Cyberspace eine beinahe drängende geworden. Sie läßt sich auf verschiedenen Ebenen beantworten.

Zunächst liegt es auf der Hand, das Neue (die unterschiedlichen Web-Browser) in ihrem eigentlichen Element auszuprobieren: sich von URL zu URL zu hangeln (URL: Universal Resource Locator, die eindeutige Zuordnung zu einer HTML-Seite im Internet). Das kann schnell langweilig und frustrierend werden, falls der neugierige Anwender nicht weiß, wo die Suche - die Suche wonach? - sinnvollerweise beginnen könnte.

Ein solches Vorgehen ist in vielen Fällen alles andere als zeit- und geldsparend. Not tun Sammelstellen, an denen leicht herauszufinden ist, wo die gewünschte Information sich befindet. Und solche Kulminationspunkte von Web-Wissen gibt es zuhauf. Das fängt bei eher traditonellen Dokumenten an, die im Internet seit langem vorhanden sind. Unix-Kenner wissen das sicherlich, aber wer in Prä-Web-Zeiten noch nie nach Frequently Asked Questions (FAQs) gesucht hat, kommt nicht jetzt plötzlich auf die Idee, das zu tun.

FAQs sind im Internet eine oder mehrere Dateien, die die wesentlichen Informationen zu einem Thema zwischen alt.fan.frank-zappa und zer.t-netz.elektronik enthalten. Die Schreibweise verrät es eingefleischten NetNews-Lesern: die FAQs gehören nicht nur zu bestimmten Themen, sondern auch zu Newsgruppen im Usenet (die Lektüre der FAQs gilt vielfach als Quasi-Voraussetzung für die aktive Teilnahme an den Diskussionen). Die hierarchisch geordneten Newsgruppen ermöglichen die Debatte einer Vielzahl von Themen, von der Wissenschaft bis zum Sex, von Literatur bis zu sozialen Fragen.

Update 22. 11. 1994

Wer sich wundert, daß auf Mausklick eine oder beide Newsgruppen nicht vorhanden sind, muß mit seiner Systemadmistratorin sprechen: in diesem Fall stehen die Gruppen nicht auf der "Einkaufsliste".

Wer sich bestimmte Nachrichten automatisch zuschicken lassen will, kann dies von der Universität Stanford erledigen lassen. Deren 2000/:Netnews Filtering Service erlaubt. Mit der Hilfe von SIFT (Stanford Information Filtering Tool) koennen Newsgeplagte sich ihr persönliches "Profile" zusammenstellen beziehungsweise schicken lassen: "www" ergab beim Testlauf knapp vierzig Newsbeiträge.

Erste Antworten in comp.infosystems.www.announce oder comp.infosystems.www.misc

Am MIT in Cambridge (Massachusetts, USA) existiert eine stets aktuelle Sammlung aller FAQs. Teurer Zugriff für IP-Einsteiger. Aber beispielsweise die Universität Paderborn und die iX-Redaktion stellen auf ihren Servern all die so oft gestellten Fragen ebenfalls zur Verfügung (siehe den Kasten Tour de Monde im oberen Teil). Das heißt, wer per ins WWW integriertem oder traditionellem Kommandozeilen-FTP zugreifen will: nur zu.

Update 2. 12. 1994

Achtung: Besonders komfortabel sind die an der Ohio State University teilweise weiterverarbeiteten Usenet FAQs, die unter http://www.cis.ohio-state.edu/hypertext/faq/usenet/ erreichbar sind. "Weiterverarbeitet" heißt hier, daß unter Umständen Hypertextlinks als solche ausgezeichnet - oder Dokumente aufgeteilt sind.

Ein guter Anfang ist vielleicht der FAQ zu comp.infosystems.www. Bereits in dessen erstem Teil (von zweien) findet sich unter Punkt 4.5 die Antwort auf die Frage What is on the web?; beispielsweise ein Katalog am schweizerischen CERN (4.5.3: siehe den genannten Kasten unter Allgemeine Sammelstellen), der zu allen (un)möglichen Themen jede Menge Hinweise enthält.

Update 22. 11. 1994

Achtung: Hier handelt es sich tatsächlich um eine erste Antwort, die mittlerweile nur sehr bedingt gilt. Denn die Newsgruppe comp.infosystems.www existiert nur noch dort, wo die Systemverwalter sie wegen noch vorhandener -- i. e. nicht gelöschter (expired) Nachrichten (postings) -- beibehalten haben. Anschließend respektive bereits jetzt gibt es die Newsgruppen comp.infosytems.www.{misc,providers,users}.

Niemand ist in der Lage, die rasende Entwicklung des Web auch nur halbwegs nachzuvollziehen. So beinhaltet das genannte CERN-Dokument zwar einen guten Überblick über elektronische Zeitschriften, aber er enthält natürlich nicht alle. Immerhin finden Wißbegierige hier neben USA Today oder der Medienzeitschrift 3W (der Name spricht für sich) auch Zugang zum WELL (Whole Earth 'Lectronic Link) und zur Global-Village-Szene-Zeitschrift Wired- beide ebenfalls in den USA. Einen reichhaltigen Vorrat an elektronischen Medien gibt Michael Strangelove (siehe im Kasten unter Zeitschriftenüberblick).

Update 28. 11. 1994:

Wie mir iX-Leser Roland Rutschmann mitgeteilt hat, ist die Liste von Michael Strangelove mindestens zeitweise außer Betrieb. Eine Ausweichmöglichkeit ist bei der iX zu finden.

Wired Ventures Ltd. bietet seit Ende Oktober einen besonderen Online-Dienst an, der übrigens nicht von einem Wired-Abonnement abhängig ist: HotWired (http://www.hotwired.com). Dahinter verbirgt sich eine Mischung aus Hypertext, Audio- und Videodaten, gegliedert in Rubriken wie EyeWitness (Augenzeuge) mit journalistischen Beiträgen oder Renaissance 2.0, wo es um zeitgenössische Kunst geht. Die Teilnahme ist kostenlos, Interessierte müssen sich lediglich registrieren lassen. Getragen wird HotWired von Sponsoren respektive Anzeigenkunden (O-Ton: sponsor slots are oversubscribed).

Ebenfalls recht jung ist beispielsweise der WEBster oder Cyberspace Surf, den Tabor Griffin Communications herausgeben. Thema: das Web, was sonst (Probeexemplare bei 4free@webster.tgc.com, Jahresabonnement 29 Dollar). Hier finden sich Nachrichten aus der Szene - wie tägliche Berichte von der WWW-Konferenz in Chicago -, Produktneuheiten und eine Hotlist neuer WWW-Server.

InterNIC Information Services geben kostenlos den Scout Report heraus, ein wöchentliches 'Blatt', das sich ebenfalls dem Web widmet (Mail an majordomo@is.internic.net mit der Nachricht "subscribe scout-report" oder den URL http://www.internic.net/infoguide.html öffnen). Scout Report kann als HTML-Dokument lokal für internen Gebrauch dienen. Der WEBster ist, wie sich auch im Obolus ausdrückt, kommerziell interessiert, was sich an der Art der Nachrichten ablesen läßt; im Scout Report finden sich tendenziell eher wissenschaftliche HTTP-Verweise. Wer neue Server zu den unterschiedlichsten Aspekten sucht, ist wahrscheinlich in beiden Fällen gut bedient - und sollte sich auch die Neuigkeitenseite des NCSA gelegentlich ansehen (http://www.ncsa.uiuc.edu/SDG/Software/Mosaic//Docs/whats-new.html).

Erst seit September gibt Steve Bennett von der holländischen Information Innovation (http://www.euro.net/innovation/) den Newsletter The Web Word heraus. Ein Abonnement soll 180 Dollar pro Jahr kosten; dafür gibt es zehn Ausgaben (zusätzlich eine sogenannte Bonusausgabe), wahlweise auch in HTML. Bennett hat dort unter anderem auch eine Liste der zehn meistbesuchten Web-Server veröffentlicht: die ersten drei sind das CommerceNet (http://www.commmerce.net/), Canadian Airlines (http://www.cdnair.ca/) und der Ericsson-Server in Holland (http://www.ericsson.nl/).

Zeitschriften allgemeiner Art im Web sind zwar noch rar; aber mit dem Auftauchen des "Spiegel" (http://www.hamburg.germany.eu.net/nda/spiegel/) ist der Web-Durchbruch wahrscheinlich kaum noch aufzuhalten.

Virtuelle Touristen aller Welt ...

Mittlerweile haben sich Web-Anhänger aus der ganzen Welt darangemacht, nicht nur immer mehr Informationen bereitzustellen. Es gehört in Insiderkreisen schon fast zum guten Ton, einen eigenen Server vorweisen zu können. Wer ihn nicht hat, ist mega-out - wie ohne firmeneigene Faxnummer.

Hilfe bei der Selbstsuche bieten sehr unterschiedliche Web-Punkte: Landkarten, Search Engines (Suchmaschinen), Firmenseiten und ähnliches mehr. Eine schnell wachsende Zahl an (DV-)Firmen nutzt das World Wide Web dazu, sich und ihre Produkte auch auf diesem Wege vorzustellen. Wer wissen möchte, ob ihn/sie interessierende Firmen das Web bereits beliefern, kann dies mit einfachen Mitteln ausprobieren: nach dem "http://" ein "www.FIRMA.com/" eingeben, wenn es sich um eine US-Firma handelt. Das funktioniert in vielen Fällen. In der Bundesrepublik entspräche das einem "www.FIRMA.de/".

Von der Weltkarte zu der Europas durch einen Klick. So kann man sich bis zur Fachhochschule Wolfenbüttel durchhangeln .

Ganz und fast gar nicht für traditionell Reisende gedacht sind die unter dem Stichwort "The Virtual Tourist" zusammengefaßten HTML-Seiten, die unter Adressen wie http://wings.buffalo.edu/world zu finden sind (siehe Abb. 2). Ausgehend von der Weltkarte kann sich jeder mit einem einzigen Klick eine weitere, detailliertere Landkarte (see inset) auf den Bildschirm holen - oder für einige wenige Länder/Gegenden bereits an dieser Stelle eine von drei Möglichkeiten ausprobieren:

grünes Dreieck: eine nach Staaten geordnete Landkarte von WWW-Servern;
roter Kreis: eine nach Staaten geordnete Liste von WWW-Servern;
pinkfarbenes Quadrat: allgemeine Information zu Orten/Staaten, soweit vorhanden.

Einschränkend sei darauf hingewiesen, daß in nicht wenigen Fällen noch keine interaktive Karte existiert und die Liste der Server erscheint.

Von Web-Spinnen und -Robotern

Viele sogenannte "Sites" (die Orte, an denen sich die Server befinden) bieten die Möglichkeit, im Internet zu suchen: einige die Wahl zwischen verschiedenen Search Engines, andere halten alphabetische Listen vor, wiederum andere betreiben ihre Engine als Projekt. "Search Engine" als Begriff ist insofern verwirrend, als damit gemeinhin nicht nur die Server gemeint sind, die mit Hilfe eine Programms selber Adressen beschaffen, sondern auch diejenigen, die nach und nach eine umfangreiche Liste an Ressourcen zusammengestellt haben. Die eigentliche Search Engine ist das Front-End für die Anfrage. Suchprogramme respektive ihre Ergebnisse heißen entweder Spider, Robot oder Wanderer.

Mit die beste Adresse für alle, die sich auf die Suche nach dem Informationsgral gemacht haben, ist das CERN in Genf. Dort ist das World Wide Web nicht nur entstanden, sondern die CERN-Mitarbeiter halten auch eine Liste von 3W-Servern vor, die textuelle Information, aber auch anklickbare Landkarten (sensitive maps) bereithält.

Einige der Anbieter von Suchdiensten stellen Metainformationen zur Verfügung, indem sie die Suche mit Hilfe einer ganzen Reihe der im Kasten Tour de Monde aufgelisteten Search Engines oder Listen ermöglichen. Sowohl an der Universität von Lund als an der in Genf haben Webber die freie Auswahl. Ähnliches gilt für die Universität von Twente, die per Menübutton je nach Suchobjekt verschiedene Quellen vorsieht.

Hunderttausende URLs auf einmal

In der hier zusammengestellten Liste ist bei einer der bekannten Search Engines (North Star) angemerkt, daß zum Redaktionsschluß nicht zu ihr durchzudringen war. Freiwillige soll das aber nicht abschrecken.

Unterschiede zwischen den einzelnen Quellen liegen vor allem in der Art, wie Informationsanbieter das Aufspüren von URLs (die Adressen von Hypertextseiten im Netz) gestalten. Am CERN ist der Überblick nach Themen ähnlich wie die Liste von Scott Yanoff: eine untergliederte Hypertextliste alphabetischer Art. Der eigentlichen Suchmaschinen sind nur wenige; Martijn Koster aus Nottingham führt die auf, die im Kasten Richtige Wanderer zu sehen sind (siehe auch [2]). Der Internet Resource Browser in Lund (siehe Abb. 1) unterscheidet zwischen Datenbeständen, die auf Suchprogrammen und Listen beruhen, und bietet die Suche in solch verschiedenen Datensammlungen an.

In Lund (Schweden) können Neugierige wählen, in welchem Fundus sie suchen wollen.

Unter den listenbasierten Informationsquellen dürfte der W3 Catalog am Centre Universitaire d'Informatique in Genf insofern besonders sinnvoll sein, als er sowohl Kosters Aliweb als auch Yanoffs Internet Services List und weitere Quellen wie die "What's new?"-Seite des NCSA nutzt.

Oliver McBryans World Wide Web Worm in Boulder (Colorado) sucht hingegen selbst. Sein WWWW hat er als Werkzeug zum Zähmen des Web bezeichnet [3]. McBryans Wurm bietet für die Suche in seinen circa 300 000 Multimediaobjekten (URLs) verschiedene Optionen an. Die Suche kann sich auf Titel oder Namen der zitierten Dokumente beziehen, sie kann aber auch alle vorkommenden URLs oder (nur) deren Namen umfassen. Der letzte komplette Lauf des WWWW liegt ein paar Monate zurück (März), aber schließlich ist die Netzbelastung nicht unerheblich.

Lycos von der Carnegie Mellon Universität benutzt wie einige andere ein Perl-Script und bedient sich eines auf der libwww des CERN basierenden C-Programms. Es sucht nach HTTP-, Gopher- und FTP-Rechnern. Mit etwa 313 000 URLs ist Lycos ungefähr so erfolgreich wie der WWWW.

WebCrawler- mittlerweile bei America Online angesiedelt - bedient sich ebenfalls bekannter Dokumente als Ausgangsbasis für seine Suche. Brian Pinkerton hat aus seinem Material die Top 25-URLs (die meistreferenzierten) extrahiert. Metainformationsträger sind zuhauf vertreten.

World Wide Web Worms at Work

Martijn Koster betreut die Aliweb-Seiten bei Nexor im britischen Nottingham (Hersteller von X.400- und X.500-Produkten). Das "Archie-Like Indexing for the Web", wie das Beinahe-Akronym aufzulösen ist, kann nicht nur im Königreich, sondern auch auf sogenannten Mirror Sites (Spiegelrechnern) in den USA und der Bundesrepublik benutzt werden. Hier sucht nicht ein Roboter im Netz nach Ressourcen, vielmehr können diejenigen, die selbst Informationen anbieten, sich bei Aliweb registrieren. Das wiederum spart Netzverkehr.

CUSI durchsucht den W3 Catalog, Aliweb, GNA und weitere Quellen, wie das DACLOD, eine Distributedly Administered Categorical List Of Documents, die Benutzer erweitern können. Yahoo (nicht mehr Stanford, sondern eigene Firma) beinhaltete im Oktober 1994 etwa 17 014 Einträge, ist aber letztmalig im September erweitert worden.

EInet, Hersteller von Web-Front-Ends, verweist auf den Genfer W3 Catalog, Lycos, SUSI, die Jump Station et cetera. EInets eigene Search Engine, Galaxy, findet auf die Anfrage "cyberpunk" zwar immerhin 11 Einträge, aber McBryans WWWW zählt 35 und der WWW Wanderer, der über 13 000 Dokumente verfügt, einen.

Lycos (Carnegy Mellon University) dürfte zu den Großen der noch kleinen Branche zählen. Zur selben Anfrage wie oben fand die "Spinne" mehr als 130 Einträge. Zugegeben, ein von der Art des Stichworts abhängiges Resultat, das keinerlei Repräsentativität besitzt.

Daß bis hierher noch kein Wort über die sonst omnipräsente Objektorientierung gefallen ist, liegt daran, daß die entsprechenden Projekte recht jungen Datums sind. Harvest ist an der Universität von Colorado entwickelt worden. Anfang November hat die Entwicklergruppe den Quellcode (nach Redaktionsschluß) öffentlich gemacht. Ein Ende der jetzt schon umfangreichen Liste ist nicht abzusehen. Abzuwarten bleibt, auch im Zusammenhang der Robot-Exclusion-Möglichkeiten, wie sinnvoll die Metainformationen der Zukunft sein können. Angesichts der Tatsache, daß eine schier überwältigende Anzahl an Dokumenten im Internet vorhanden ist, kann Übersicht nur guttun. Zu guter Letzt: dieser Artikel ist, wie angekündigt, im Web - über den iX-Server- verfügbar.

Literatur

[1] Wolfgang Sander-Beuermann; NetNews; Informationskarussel; Usenet: Lese- und Schreibgewohnheiten der Benutzer; iX 10/93, S. 96 ff.

[2] Martijn Koster; World Wide Web Robots, Wanderers, and Spiders; Nexor, UK; http://web.nexor.co.uk/mak/doc/robots/robots.html; darin als Hypertextlinks enthalten die Liste der bekannten Roboter und A Standard for Robot Exclusion

[3] Oliver McBryan; GENVL and WWWW: Tools for Taming the Web; http://www.cs.colorado.edu/home/mcbryan/mypapers/www94.ps

Tour de Monde

Auch die Metainformation müssen Benutzer von WWW-Front-Ends erst finden. So unvollständig wie der hier versammelte Ansatz ist, lassen sich mit Hilfe der FTP- und HTTP-Adressen zumindest viele weitere finden.

Frequently Asked Questions

Außer mit Hilfe des World Wide Web sind die FAQs natürlich 'von' der Kommandozeile zu besorgen. In diesem Fall ist ftp als Kommando zu benutzen und die unten den beiden Schrägstrichen folgenden Adressen (bis zum nächsten Slash) bilden jeweils den richtigen Parameter.

ftp://rtfm.mit.edu
ftp://ftp.uni-paderborn.de/doc/FAQ
ftp://ftp.heise.de/pub/doc/FAQ
http://www.cis.ohio-state.edu//hypertext/faq/usenet/

Geographisch orientierte Ressourcen

Entweder mit Hilfe von Landkarten oder umfangreichen Adressenlisten kann jeder europa- und weltweit suchen. "The Virtual Tourist" heißt die (geo)graphisch orientierte Lösung.

Weltkarte
http://wings.buffalo.edu/world/
Update 13. 1. 1995 - zeitzonenorientierte Ausgabe: http://www.timeinc.com/vibe/vibeworld/worldmap.html

Europakarte
http://wings.buffalo.edu/world/europe.html
Update 22. 12. 1994/20. 3. 1995:

Deutschlandkarte
ganz neu: http://www.leo.org/demap/
neu: http://www.leo.org/info_muc/WWWother/demap.html
alt: http://www.informatik.tu-muenchen.de/isar/WWWother/demap.html

Deutsche Adressenliste
http://www.chemie.fu-berlin.de/adressen/brd.html

Server weltweit am CERN
http://info.cern.ch/hypertext/DataSources/WWW/Servers.html

Allgemeine Sammelstellen am CERN

Wer sich am liebsten durchs Alphabet hangelt, ist neben der weiter unten (bei den Search Engines) aufgeführten Liste von Scott Yanoff am besten beim CERN aufgehoben.

http://info.cern.ch/hypertext/DataSources/ByAccess.html
http://info.cern.ch/hypertext/DataSources/bySubject/Overview.html
http://info.cern.ch/hypertext/DataSources/bySubject/Virtual_libraries/Overview.html

Zeitschriftenüberblick

Michael Strangelove von der Universität Ottawa hat ein Viertelgigabyte an elektronischen Zeitschriften zusammengestellt. Vorausgesetzt, der Kopf des Dokuments bleibt erhalten, hat Strangelove nichts gegen lokales Speichern.

Update 28. 11. 1994:

Wie mir iX-Leser Roland Rutschmann mitgeteilt hat, ist die Liste von Michael Strangelove mindestens zeitweise außer Betrieb. Eine Ausweichmöglichkeit ist bei der iX (siehe zweiten Eintrag unten) zu finden. Die hier als nauml;chste folgende HTTP-Adresse für Strangeloves Zusammenstellung ist jedenfalls bereits länger nicht mehr erreichbar.

Und bei der Association of Research Libraries, die Bibliotheken aus den USA und Canada als Mitlgieder hat, findet der/die Suchende eine Liste, die gerüchteweise als Nachfolge der Strangeloveschen Arbeit gilt: gopher://arl.cni.org:70/00/scomm/edir/edir94/jz.

http://journal.biology.carleton.ca/Hypertext/ElectronicJournals/otherJournals/EJORNL.html
http://www.heise.de/ix/raven/Literature/Journals/ElJournals.html

Search Engines und Listen

Bei der Flut an 3W-Servern kein Wunder: auch die Anzahl der Werkzeuge, mit deren Hilfe sich im Netz nach Dokumenten respektive Stichworten suchen läßt, steigt. Die folgende Liste enthält Informationsanbieter, die mit einem eigenen Suchwerkzeug arbeiten, und solche, die die anderer verwenden.

Aliweb: Archie-Like Indexing for the Web (Nexor, Nottingham - Martijn Koster)
http://web.nexor.co.uk/aliweb/doc/aliweb.html
http://www.leo.org/www_index/aliweb.html
http://www.jura.uni-sb.de/Suche/AliWeb.html (durchsucht den dt. Spiegel)
Update 9. 12. 1994
CWRU Autonomous Agents Research Group (Case Western Reserve University, Cleveland, OH - Randy Beer et al.)
ftp://alpha.ces.cwru.edu/pub/agents/home.html
CUSI: Configurable Unified Search Interface (Nexor, Nottingham - Martijn Koster; Nachfolge von SUSI: Simple Unified Search Interface)
http://web.nexor.co.uk/susi/cusi.html
EInet Galaxy
http://galaxy.einet.net/www/www.html
EIT Link Verifier Robot (EIT - Jim McGuire)
http://wsk.eit.com/wsk/dist/doc/admin/webtest/verify_links.html
External Info (Universität Twente - Jacek Skowronek)
http://www_is.cs.utwente.nl:8080/cgi-bin/local/nph-susi1.pl
GNA: Globewide Network Academy Meta Library Search (MIT)
http://uu-gna.mit.edu:8001/uu-gna/meta-library/index.html
Harvest WWW Home Pages
http://harvest.cs.colorado.edu/
Internet Resource Browser (Universität von Lund, Schweden - Traugott Koch)
http://www.ub2.lu.se/nav_menu.html
Internet Wizard (Spry, Inc.)
http://www.spry.com/wizard/index.html
Lycos Home Page (Carnegie Mellon University)
http://lycos.cs.cmu.edu/
Netscapes Internet Search Overview
http://home.netscape.com/home/internet-search.html
MOMspider: Multi-Owner Maintenance (Universität von Irvine, California - Roy T. Fielding)
http:/www.ics.uci.edu/WebSoft/MOMspider/
North Star (Ende Oktober nicht zu erreichen)
http://comics.scs.unr.edu:7000/top.html
RBSE: Repository Based Software Engineering (Universität Houston, Texas/NASA - David Eichmann)
http://rbse.jsc.nasa.gov/eichmann/urlsearch.html
SG-Scout (MIT für Xerox Parc - Peter Beebee)
http://www-swiss.ai.mit.edu/~ptbb/SG-Scout.html
The Jump Station (Stirling University - Jonathon Fletcher)
http://www.stir.ac.uk/jsbin/js
The Whole Internet Catalogue
http://nearnet.gnn.com/wic/newrescat.toc.html
W3 Catalog am cui: Centre Universitaire d'Informatique (Genf)
http://cuiwww.unige.ch/w3catalog
W3M2 (Laboratoire de Recherche en Informatique, Universität Paris-Süd - Christophe Tronche)
http://tronche.com/W3M2/
W4: World Wide Web Wanderer (MIT - Matthew Gray)
http://www.netgen.com/cgi/comprehensive
WebCrawler (America Online: AOL - Brian Pinkerton)
http://webcrawler.com
WebLinker (Cerns PT Group - Roy Fielding)
http://www.cern.ch/WebLinker/
WWWW: World Wide Web Worm (Boulder, Colorado - Oliver McBryan)
http://www.cs.colorado.edu/home/mcbryan/WWWW.html
Yahoo Search (David Filo and Jerry Yang)
http://www.yahoo.com/search.html
Scott Yanoff's List
ftp://ftp.csd.uwm.edu/pub/inet.services.html
Zorba-Projekt (Rockwell Network Systems; das frühere Nomad - James Aviani)
http://www.rns.com/cgi-bin/nomad

Richtige Wanderer

Suchmaschinen (Search Engines) im Internet können ihren Wissendurst auf unterschiedliche Weise befriedigt haben. Die, die den Netzverkehr am meisten belasten, sind die sogenannten Spiders, Robots und Wanderers. Die meisten suchen anhand eines ersten Dokuments nach dort vorhanden URLs und verzweigen dann weiter, entweder in einer Breiten- oder einer Tiefensuche (wie sie aus der KI bekannt sind).

Martijn Koster in Nottingham hat eine Liste zusammengestellt [2]:

ANL/MCS/SIGGRAPH/VROOM Walker
ASpider (Associative Spider)
Arachnophilia
checkbot.pl
churl
EIT Link Verifier Robot
Emacs w3-search
Fish Search
html_analyzer-0.02
HTMLgobble
Jump Station
Lycos
MOMspider
Mac WWWWorm
NorthStar
Peregrinator
Python Robot
RBSE
SG-Scout
tarspider
W4: World Wide Web Wanderer
http://www-ihm.lri.fr/~tronche/W3M2/W3M2 Robot
WWWW: World Wide Web Worm
WebCrawler
WebLinker
Webfoot Robot
Websnarf

Hier ist nicht der Raum, all diese Roboter vorzustellen, ein paar Beispiele müssen genügen. So ist der W4 (W3-Wanderer) mit Hilfe von Lycos-Daten ein riesiges Verzeichnis von HTTP-Rechnern (das selbstverständlich auch www.heise.de enthält) geworden. Auch SG_Scout sammelt WWW-Server. Fish Search, ein Tool aus Eindhoven für das NCSA Mosaic 2.4, ist auch per FTP erhältlich (ftp://ftp.win.tue.nl/pub/infosystems/www/fish-search.tar.gz).

Als Bestandteil der Quelldateien für die Programmiersprache Python, die am Amsterdamer CWI zu haben ist, kommt der Python-Roboter (ftp://ftp.cwi.nl/pub/python/python0.9.8.tar.Z). MOMspider hat wie auch W3M2 oder Lycos eine eigene HTML-Seite, die jeder ausprobieren kann.

Angesichts der Vielzahl an systematisch suchenden Werkzeugen ist es nicht verwunderlich, daß es bereits einen Standard für den Ausschluß solcher Arbeitstiere gibt. Der genannte Martijn Koster hat ihn verfaßt ([2] beinhaltet einen Link auf ihn).

Mitte vorigen Jahres herrschte offensichtlich Konsens zwischen denjenigen, die mit Robotern aktiv arbeiten, daß es Sites, die nicht besucht werden wollen, möglich sein muß, dies den suchenden Werkzeugen bekanntzugeben. Wer demnach jetzt in seinem WWW-Verzeichnis eine Datei namens robot.txt mit dem folgenden Inhalt hat, wird gänzlich verschont:

User-agent: * # alle
Disallow: /

Wer hingegen nur bestimmte Verzeichnisse vom Besuchsrecht ausnehmen will, kann das genauer tun:

User-agent: * # alle
Disallow: /diverses
Disallow: /tmp

Die bekannten Robot Builders haben bekundet, sich an diese Regeln halten zu wollen, was keine Garantie darstellen kann, wie auch Koster meint.

iX-TRACT

Für Einsteiger ist im World Wide Web keine Informationsstruktur ersichtlich.
Einige zentrale Listen erleichtern die Navigation, indem sie Verweise auf alphabetisch geordnete WWW-Server anbieten.
Spezielle Programme - Spider oder Robot genannt - durchsuchen das Web, um Informationen zu sammeln.
Search Engines, die mit Spiders oder gewachsenen Listen arbeiten, bieten Detailanfragemöglichkeiten.

(hb)

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}