Weniger weit weg

Meist ist das erste Navigationsinstrument eines Internet-Benutzers eine der großen Suchmaschinen wie AltaVista, Lycos, DejaNews oder eine der vielen anderen. Um so verwunderlicher die Tatsache, daß kaum ein WWW-Server dieses bekannte und von Benutzern akzeptierte Navigationsinstrument mitliefert.

17.01.1999, 02:00 Uhr

Lesezeit: 21 Min.

iX Magazin

Von

Stefan Borggraefe
Oliver Schade

Ganze Abhandlungen befassen sich mit der Gestaltung von Navigationsbalken, mit der Strukturierung der angebotenen Informationen, mit der grafischen Darstellung derselben in Site Maps. Doch kaum ein Designer oder Marketingexperte empfiehlt den Einsatz einer ‘lokalen’ Suchmaschine - zu komplex ist die Materie, zu unübersichtlich der Markt und zu schwierig die Konfiguration. Doch gerade erst damit erhält der Anwender einen schnellen Zugriff auf die gewünschte Information. Speziell bei größeren WWW-Servern mit vielen Informationen sind solche Möglichkeiten fast schon ein Muß.

Da hilft die Erfahrung mit den allseits bekannten WWW-Suchmaschinen wenig. Informationen hierüber hieße Eulen nach Athen tragen (http://www.bitonline.de/ausgabe1-2-98/moennich.html). Speziell für den Windows/DOS-Bereich gibt es einige Produkte, die eine Aufbereitung lokaler Informationen für das Internet anbieten. Hierzu zählen Klassiker wie askSam oder Odars2web, von ihrer Entwicklung her Volltextdatenbanken, die eine Anbindung ans Web erlauben. Beide Produkte sind aber auf reine Windows-Umgebungen ausgerichtet und daher für heterogene Umgebungen ungeeignet. Naheligend in der Windows-Welt ist natürlich der Einsatz von Microsofts Index Server, der jedoch nur zusammen mit dem Internet Information Server (MIIS) unter Windows NT 4.0 arbeiten kann. Offenere Konzepte basieren meist auf Programmierwerkzeugen, die einen höheren Grad an Transparenz und Flexibilität anbieten.

Produkte im Web

Netscape Compass Server
WebGlimpse
ht://Dig
MOMSpider
Webinator
Harvest
Swish-E
Roxen Intra Seek
Excite für Web-Servers
Verity Information Server (www.verity.com/products/infoServ.html)

Vielfalt der Konzepte

Solche ‘lokalen’ Suchmaschinen existieren in der Form von verschieden umfangreichen C- und Perl-Programmpaketen seit einigen Jahren für die verschiedenen Unix-Derivate. Weiterhin gibt es auch eine Reihe kommerzieller Produkte, die professionellen Ansprüchen genügen und zum Teil Funktionen bieten, die weit über das Bereitstellen einer einfachen Suchfunktion hinausgehen. Die Vorstellung einiger wichtiger Vertreter beider Kategorien beschreibt einen Querschnitt der erhältlichen Programmpakete. Jedes hat seine Besonderheiten und ist somit für unterschiedliche Anwendungsfälle geeignet.

Suchmaschinen bestehen grundsätzlich aus zwei Bestandteilen:

dem Gatherer, der die spezifizierten Daten indiziert und
dem Broker, der zwischen Anwender und Datenbank vermittelt und die Suchergebnisse aufbereitet.

Für die eigene Anwendung ist es wichtig, daß der Gatherer die Sprache verarbeiten kann, in der die Informationen eingebettet sind, die es zu indizieren gilt. Nur so kann er zwischen Füllwörtern und wichtigen Schlüsselwörtern unterscheiden. Leider basiert keiner der aufgefundenen Gatherer auf der MIT-Entwicklung der semantischen Textkomprimierung, wie Stefan Mintert sie in der April-Ausgabe 1998 der iX vorgestellt hat [1]. Darüber hinaus kann auch der unterstützte HTML-Dialekt für die Erkennung der zu speichernden Schlüsselwörter entscheidend sein, je einfacher und ‘korrekter’, desto besser sind die Ergebnisse. Konstrukte wie

<FONT COLOR="#FF0000" SIZE="+3">A</FONT>uto

werden von nur wenigen Gatherern als der Begriff ‘Auto’ identifiziert, hier bietet die konsequente Verwendung von Stylesheets eine wirkliche Chance zur Erkennung der wichtigen Schlüsselwörter.

Eine Frage der Datenbasis

Weiterhin spielt die Arbeitsweise des Gatherers im kommerziellen Umfeld eine wesentliche Rolle:

Dateisystembasierte Indizierung: der Gatherer bearbeitet ausgehend von einem Wurzelverzeichnis rekursiv alle Dateien. WWW-Server-seitige Einstellungen, wie URL-Rewriting oder Zugangssperren et cetera, ignoriert er. Dafür müssen die Dateien nicht über den HTTP-Server angefordert werden, was den Indiziervorgang beschleunigt und Rechenleistung spart.
HTTP-basierte Indizierung: der Gatherer fordert alle zu indizierenden Dokumente vom WWW-Server an und erfaßt so auch nur die für den normalen Anwender zugänglichen Dokumente. Hierbei entstehen bei regelmäßiger Indizierung nicht unerhebliche Datenmengen, die eventuell in der Abrechnung des Providers mit auftauchen. Sollte dies nicht der Fall sein, lohnt sich eine HTTP-basierte Indizierung, zumal eine solche Suchmaschine nicht nur eigene WWW-Server indizieren kann.

Neben der Methode der Dateiübermittlung stellen die erkannten und konfigurierbaren Dateiformate ein weiteres Kriterium dar: während einfachere Produkte nur Text und HTML indizieren können, sind fortgeschrittenere Indizierer auch in der Lage, Informationen aus einer Vielzahl anderer Dateiformate zu verarbeiten und durch eine Suchfunktion zur Verfügung zu stellen. Zu letzterer Kategorie gehören beispielsweise der Netscape Compass Server und das Harvest-System, die unter anderem Dateien, die im PDF-, PostScript- oder WordPerfect-Format vorliegen, mit in den Index aufnehmen können.

Über die Brauchbarkeit einer Suchmaschine entscheidet in erster Linie die Bedienbarkeit des Brokers, was bei der Integration und Anpassung der mitgelieferten Suchformulare an das verwendete Design beginnt und bei einer verständlichen Ausgabe endet. Ersteres zählt eher zu den leichteren Aufgaben, denn die meisten Programme liefern einfache HTML-Seiten mit und rufen ein eigenes CGI-Programm auf. Etwas aufwendiger ist meist die Anpassung der Ausgabe der Suchergebnisse. Bei einfacheren Programmen muß man dazu manchmal sogar an dem entsprechenden CGI-Skript selbst Hand anlegen.

Anhand solcher Kategorien wie Bedienbarkeit, Methoden und Brauchbarkeit ergibt sich eine Struktur, die zu einer Übersicht der Angebote führt. Und außerdem hat jedes dieser Programmpakete seine Vorgeschichte und seine Beziehungen zu anderen Produkten.

WebGlimpse

WebGlimpse basiert im Kern auf dem Indizierer Glimpse, der für sich allein genommen lediglich Textdateien, die in einem lokalen Dateisystem vorliegen, indizieren kann und so eine schnelle Suche nach bestimmten Stichworten in diesen Dateien ermöglicht. WebGlimpse versorgt Glimpse mit Textdateien, die auf einem HTTP-Server liegen, und bietet ein Web-Interface für Suchanfragen an, erweitert Glimpse vom Indizierer für lokale Dateisysteme zu einem für das Web.

Als Besonderheit bietet WebGlimpse an, zu jeder Seite oder einer Auswahl von Seiten eine kleine Suchbox hinzuzufügen, so daß von jeder Seite aus die Suchfunktion direkt zugänglich ist. Diese Vorgehensweise bietet unter anderem den Vorteil, daß WebGlimpse es ermöglicht, ‘Nachbarschaften’ zwischen Dokumenten zu definieren, die zum Beispiel aus allen Seiten bestehen können, die nicht weiter als zwei Links von der betreffenden Seite entfernt sind. Die Suche läßt sich so auf die Nachbarschaft der Seite beschränken, von der aus die Suchanfrage gestartet wurde (siehe Abbildung 1). Inwieweit diese Funktion sinnvoll ist, hängt wohl vom jeweiligem Einsatzgebiet ab.

Unter Linux RedHat 5.1 scheiterte das Übersetzen der Quellen, so daß die auf der Homepage angebotenen Binaries zum Zuge kamen, unter Solaris 2.6 klappte alles reibungslos. Da Glimpse nur ASCII-Dateien indizieren kann, sind die Ergebnisse der Suche damit naturgemäß auf die Informationen innerhalb von HTML-Seiten beschränkt. Andere Dateitypen wie PDF können nicht mitindiziert werden. Durch die relativ leichte Konfigurierbarkeit bietet sich aber dieses Programmpaket für kleinere, einfache und nicht-kommerzielle WWW-Server an.

ht://Dig

Diese Programmpaket zählt zu den HTTP-basierten Indizierern und arbeitet sich rekursiv durch einen oder mehrere WWW-Server. Zur Erhöhung der Trefferquote lassen sich bei ht://Dig [m] eigene, zusätzliche META-Tags in die HTML-Seiten integrieren, die dann entsprechend in die Datenbank aufgenommen werden (siehe ‘Metainformationen’). ht://Dig liegt als Quelltext vor und ist unter den Rahmenbedingungen der GNU Public License (GPL) frei verfügbar. Die letzte Änderung auf den WWW-Seiten datiert vom Dezember 1998.

Metainformationen

Je mehr das Web-Angebot anwächst, desto hilfreicher werden Metainformationen, die eine gezielte und erfolgreiche Suche nach Informationseinheiten zulassen. Als Quasi-Standard hat sich bis heute die Familie der META-Tags [e] etabliert, die im HEAD-Teil einer WWW-Seite nähere Informationen über Autoren und Inhalt geben. Diese werden auch von einer Vielzahl von Indizierern ausgewertet. Allerdings kann sich der engagierte WWW-Autor nicht auf die Berücksichtigung und Verwendung dieser Informationen bei dem Indizierungsprozeß verlassen, da kein echter Standard existiert.

Andere Ansätze wie PICS [f] versuchen gleichzeitig, eine Klassifizierung der Information anzubieten, die der jeweilige Browser und die Proxies verwenden können, um Benutzergruppen vor unerwünschten Informationen zu schützen. Als weiterführender Ansatz entwickelt das W3C derzeit den RDF-Standard [g] (Resource Description Framework), eine auf XML basierende Schnittstelle. Durch die Standardisierung seitens des W3Cs und die vielfältige Verwendbarkeit entstehen hier sehr interessante Möglichkeiten im Hinblick auf neue Suchmaschinen.

Das Einrichten des Paketes verlief dank eines configure-Scripts ohne größere Überraschungen, dauerte allerdings recht lange. Nur eine manuelle Überarbeitung der config-Datei und der Makefiles im Sourcebaum waren notwendig. Bereits beim Übersetzungsprozeß macht sich der größere Leistungsumfang als bei Excite oder WebGlimpse bemerkbar: das Programm sucht nach dem PDF-Betrachter acroread und nach diversen Zusatzwerkzeugen. ht://Dig beherrscht sogar eine eigene unscharfe Suche.

Nach kurzer und minimaler Anpassung der Konfigurationsdatei ht://Dig.conf baut der Befehl rundig eine Datenbank auf. Mit dabei ist ein vorkonfiguriertes Abfrageformular, das aber nur wenige Optionen unterstützt. Die ausgezeichnete Online-Dokumentation läßt allerdings kaum Wünsche offen und zeichnet Wege für die eigenen Anpassungen, unter anderem über Templates, Umgebungsvariablen und so weiter.

MOMSpider

Bereits 1994 entstand MOMSpider [n] in der Version 1.00 auf der Basis von Perl 4.036 und der WWW-Bibliothek libwww-perl 0.40 an der Universität von Kalifornien, die es auf der ersten WWW-Konferenz im gleichen Jahr vorstellte. Dieses Produkt erscheint hier der Vollständigkeit halber. Dank der vielen recht gut kommentierten Perl-Programme darf dieses Programm eher als Referenzimplementierung einer Suchmaschine und Spielwiese für den Perl-Freak gelten denn als ein praktisch verwendbares Programmpaket.

Diese Zielsetzung berücksichtigt auch eine der WWW-Seiten auf der Homepage von MOMSpider, die sich mit der Dokumentation von Erweiterungsmöglichkeiten befaßt. Die Installation erfolgt von Hand - fundiertes Unix-Wissen wird vorausgesetzt. Die Konfiguration erfolgt mittels entsprechender Dateien und Kommandozeilenoptionen, die auf den WWW-Servern recht ausführlich dokumentiert sind.

Webinator

Webinator von der Firma Thunderstone ist ein kommerzielles Produkt, von dem es eine kostenlose - im Funktionsumfang eingeschränkte - Version gibt, die für kleinere Webserver durchaus ausreichend sein kann. Webinator hat einige Funktionen, die man bei anderen Indizierern nicht findet. So verwaltet er beispielsweise den Index als SQL-Datenbank, so daß die indizierten Daten mit Hilfe von SQL-Kommandos nachträglich beabeitet werden können. Weiterhin besticht die Ausgabe der Suchergebnisse: Sie enthält neben einer grafischen Prozentanzeige für die Relevanz des gefundenen Dokumentes auch Informationen über dessen Dateigröße und einige weitere interessante Angaben (siehe Abbildung 2). Dies ist ebenso wie das Interface für die Eingabe der Suchangabe absolut frei konfigurierbar.

Auf der Homepage des Herstellers sind einige Beispielkonfigurationen zu finden, die etwa das Aussehen von AltaVista nahezu perfekt nachahmen. Die Installation beansprucht nur wenige Minuten. Sofern einem die mitgelieferte Grundkonfiguration genügt, kann man seinen Webserver mit Webinator in minimaler Einarbeitungszeit um eine gut funktionierende Suchfunktion bereichern. Insgesamt gibt es drei Versionen des Webinator:

Für die kostenlose Version gilt eine Beschränkung auf 10 000 Dokumente, und sie kann die SQL-Kommandos CREATE und INSERT nicht verarbeiten.
Bei der Version ‘Commercial’, die 700 US-$ kostet, gilt die Beschränkung der Dokumentanzahl nicht mehr.
Die größte Webinator-Variante ‘Full Texis’ beherrscht auch die Kommandos CREATE und INSERT, außerdem bietet sie einige erweiterte Konfigurationsmöglichkeiten. Das kostet dann aber über 10 000 US-$.

Zu den Versionen ‘Commercial’ und ‘Full Texis’ gibt es ein Plug-in, das den Webinator dazu befähigt, mehr als hundert verbreitete Dateiformate sinnvoll zu indizieren. Die freie Version ist auf HTML und ASCII-Textdateien beschränkt.

Harvest

Bei Harvest handelt es sich um ein komplexes, dafür aber auch leistungsfähiges System. Wer sich von einer sehr langen Einarbeitungszeit und dutzenden Konfigurationsdateien nicht abschrecken läßt, erhält mit Harvest einen Indizierer, der Funktionen bietet, die sonst bei keiner anderen frei erhältlichen Suchmaschine zu finden sind.

Hervorzuheben ist dabei beispielsweise die große Anzahl von Dateiformaten, aus denen Harvest Index-Informationen gewinnen kann. Harvest kann die Daten sowohl aus einem Dateisystem als auch über die Protokolle HTTP, NNTP, FTP und Gopher beziehen. Zu den weiteren Leistungsmerkmalen zählt die Möglichkeit des Aufbaus hierarchischer Indizes, in dem die Indexdaten von nahezu beliebig vielen Webservern in einer baumartigen Struktur organisiert werden. An der Wurzel eines solchen Baumes steht dann ein Broker, der eine Suche über sämtliche indizierten Webserver zuläßt.

Weiterhin ist es mit dem Harvest-System möglich, die Anfragen, die von einem Broker bearbeitet werden, durch sogenannte Replikatoren auf mehrere Rechner zu verteilen. Dadurch kann das System mitwachsen, falls ein Broker aufgrund hoher Beliebtheit entsprechend stark frequentiert wird. Diese Fähigkeiten spielen insbesondere für große Server eine Rolle, die eine Suche innerhalb einer gesamten Domain mit mehreren unabhängigen WWW-Servern anbieten wollen, wie etwa in großen Unternehmen oder an Hochschulen.

Leider enthält die aktuelle Harvest-Distribution einige Fallstricke, die es zu überwinden gilt. Daher ist für die nächste Ausgabe der iX ein Artikel speziell über dieses Programm geplant.

Netscape Compass Server

Der Netscape Compass Server ist das Nachfolgeprodukt zum Netscape Catalog Server, der wiederum eine kommerzielle Weiterentwicklung des Harvest-Systems ist. So ist es nicht verwunderlich, daß der Kern des Compass Server ähnlich aufgebaut ist wie dieses. Zusätzlich wurden aber noch einige Komponenten hinzugefügt, die Funktionen ermöglichen, die zum Teil weit über das reine Indizieren von Daten hinausgehen (siehe Abbildung 3).

Von Harvest geerbt hat der Compass Server die Fähigkeit, mit sehr vielen Dateitypen etwas Sinnvolles anfangen zu können - es sind sogar noch einige hinzugekommen, unter anderem die Microsoft Office Dateiformate.

Zusätzlich zum automatisch generierten Suchindex kann man mit dem Compass Server auch einen baumartig aufgebauten Informationskatalog, ähnlich wie man ihn von Yahoo kennt, aufbauen, so daß ein weiterer Weg zum Finden von Informationen als Alternative zu der Eingabe eines Suchbegriffes entsteht. Zu den weiteren Besonderheiten des Netscape Compass Server zählt die Fähigkeit, allen Personen, die an einem bestimmten Thema interessiert sind, eine Nachricht zukommen zu lassen, wenn ein Gatherer ein neues Dokument hierzu gefunden hat. Diese Nachrichten werden entweder in einer täglichen EMail, dem My Compass Newsletter, zusammengefaßt oder sind über eine personalisierte Web-Seite für den Nutzer zugreifbar.

Die Administration des Compass Server geschieht über eine sehr komfortable Web-Oberfläche. Insgesamt ist der Compass Server wohl insbesondere für Intranets größerer und mittlerer Unternehmen besonders geeignet, die ihren Mitarbeitern eine Hilfe beim Auffinden von im Unternehmensnetz verborgenen Informationen bereitstellen wollen.

Swish-E

Swish-E erlaubt die Indizierung sowohl auf Dateisystemebene als auch über das HTTP-Protokoll. Interessant an Swish-E dürfte vor allem die hohe Geschwindigkeit bei der Beantwortung von Suchanfragen und die relativ geringe Größe der erzeugten Indizes sein. Diese haben lediglich 1 bis 5 % des Umfangs der zugrundeliegenden HTML-Dokumente.

Ansonsten wirkt der Funktionsumfang von Swish-E eher spartanisch gegenüber den anderen hier besprochenen Indizierern. Sowohl die Eingabemaske für Suchanfragen als auch die Ausgabe der Suchergebnisse lassen sich ohne größeren Aufwand nur sehr karg gestalten.

Roxen IntraSeek

Zu dem eher unbekannten, aber doch sehr flexiblen WWW-Server Roxen Challenger [l], der sowohl in einer kommerziellen als auch in einer GPL-Version verfügbar ist, gehört Roxen IntraSeek [k] als kommerzielles Zusatzprodukt. Es fügt sich nahtlos in das Administrationskonzept des Roxen WWW-Servers ein, das heißt, er ist vollständig über einen beliebigen WWW-Browser konfigurierbar. Wie Roxen Challenger basiert IntraSeek auf der Programmiersprache Pike, liegt im Quellcode vor und läuft auf nahezu allen Unix-Derivaten. Eine Windows-NT-Variante befindet sich derzeit in Entwicklung.

Leider unterstützt IntraSeek wie WebGlimpse nur ASCII-Texte und HTML-Objekte, allerdings in 14 verschiedenen teilweise recht exotischen Landessprachen für Suchbegriffe und Ausgabe der Ergebnisse. Dadurch erfolgt eine wesentlich bessere Trennung von Schlüssel- und Füllwörtern. Weitere Merkmale sind die Ausrichtung auf mittlere WWW-Server mit bis zu 100 000 Dokumenten, Unterstützung des Robot-Exclude-Standards (siehe ‘Schutz vor Robotern’) sowie mehrerer virtueller Server, Meldung von defekten Verweisen, Auswertung der Suchanfragen von den Benutzern und die üblichen boolschen Verknüpfungsoperatoren. Durch seine einfache Administrationsoberfläche stellt IntraSeek eine ideale Lösung für finanziell unabhängige Projekte dar, deren Zeitrahmen für eine Anpassung limitiert ist.

Excite for Web Servers

Kostenlos und ohne jeglichen Support bietet Excite, Betreiber der gleichnamigen Suchmaschine fürs Web, Excite for Web Servers an, verlangt aber eine detaillierte Registrierung. Es gibt Versionen für nahezu alle Unix-Derivate. Die für Windows NT ist seit Januar 1998 angekündigt, aber immer noch nicht erhältlich. Für die aktuelle Version 1.1.1 (beziehungsweise 1.1p1), vermeldete Excite Ende November 1998 bisher nicht bekannte Sicherheitslücken, die auf der BUGTRAQ-Mailingliste [i] entdeckt wurden.

Zwar ließ sich Excite auf einem Linux-Rechner nicht installieren, denn das mitgelieferte Perl-Binary funktionierte nicht. Der Versuch, die benötigten Bibliotheken nachzuinstallieren, zerstörte das Original-Perl. Laut der Online-Dokumentation [h] läßt sich Excite aber recht einfach konfigurieren und an ein eigenes Layout anpassen.

Dank seines geringen Umfangs sowie der optisch ansprechenden und variablen Präsentation der Suchergebnisse bietet sich Excite (nach Behebung des auf BUGTRAQ gemeldeten Problems) für Projekte an, bei denen schnell ein funktionsfähiges Ergebnis präsentiert werden muß. Ein langfristiger Einsatz ist wegen der ungewissen Zukunft nicht ratsam.

Verity Information Server

Der Verity Information Server ist ein kommerzielles Produkt, daß insbesondere für mittlere und größere Unternehmen interessant sein dürfte. Dafür sprechen vor allem die große Anzahl von verarbeiteten Dateiformaten als auch die Möglichkeit, die indizierten Daten nach Themen zu ordnen und so eine Struktur in die im Unternehmensnetz vorhandenen Informationen zu bringen. Konsequenterweise lassen sich bei der Ausgabe der Suchergebnisse direkt auch die zu einem Suchergebnis thematisch zugehörigen Dokumente aufspüren.

Außerdem ist die Verarbeitung von Suchanfragen recht intelligent gestaltet: Als Suchbegriffe sind unter anderem natürlichsprachliche Anfragen oder komplette Dokumententitel möglich. Letzteres hat zur Folge, daß zu diesem Dokument ähnliche Dokumente gesucht werden. Mit einem Zusatzpaket kann Verity selbst SSL-geschützte Webserver indizieren. Bisher sind jedoch nur Schlüssel mit bis zu 40 Bit möglich. Zur Erweiterung und zum detaillierten Anpassen bietet Verity mehrere Entwicklungspakete an.

Fazit

Die Palette der Indiziermaschinen für den eigenen Server ist breit gefächert, von einfachen, kleinen, leicht zu konfigurierbaren Skripten bis hin zu der Universallösung, der kaum eine Aufgabe zu groß wird. Daher stehen am Schluß einige Empfehlungen: ht://Dig hat sich für kleinere Projekte an die Spitzenposition geschoben [m].

Ausgesprochen professionelle Ergebnisse erhält man sehr schnell mit der freien Version von Webinator, die jedoch auf 10 000 Dokumente beschränkt ist. Für größere Datenmengen muß man dann entweder ein kommerzielles Produkt erwerben, oder man versucht sich am Harvest-System, das zwar nahezu beliebig skalierbar, dafür aber auch nicht gerade leicht zu installieren und zu konfigurieren ist.

Wer unter den hier vorgestellten Paketen noch nicht das für sein Vorhaben passende gefunden hat, findet zentrale Informationen über Indiziermaschinen über ‘Fundorte im Web’. Mehr als nur die hier genannten Beispiele typischer Vertreter von Indexmaschinen liefern die URLs unter den ‘Zentralen Informationen’ [o] mit über 50 verschiedenen Angeboten. Eine komplette Übersicht hätte den Rahmen dieses Beitrags sicherlich gesprengt.

STEFAN BORGGRAEFE
studiert an der Universität Dortmund Informatik und arbeitet dort bei der Informatikrechner-Betriebsgruppe (IRB) mit den Schwerpunkten Web und Java.

OLIVER SCHADE
studiert Informatik mit Nebenfach Psychologie in Berlin und arbeitet als studentische Hilfskraft bei der Firma Outsource GmbH.

Literatur

[1] Stefan Mintert; Datenkompression; Mit Bedeutung; sgzip: Semantische Textkomprimierung

iX-TRACT

Eine erfolgreiche Suche im Angebot einer Website bedarf einer Datenaufbereitung.
Dies leisten sogenannte Indiziermaschinen, die nicht nur die Informationen mit Schlüsseln versehen, sondern auch die Suchanfragen entsprechend bearbeiten.
Das Spektrum der Angebote reicht von einfachen leicht konfigurierbaren Skripten bis zu kommerziellen Universallösungen.
Dabei bestimmen Größe und Komplexität des eigenen Projektes die Entscheidung für das geeignete Produkt.

Fundorte im Web

[a] http://info.webcrawler.com/mak/projects/robots/norobots-rfc.html

[b] http://www.w3.org/TR/PR-html40/appendix/notes.html#h-B.3.1

[c] Newsgruppe: de.comm.infosystems.www.servers;
Autor: ari@berlin.snafu.de;
Message-ID: MPG.e52170a22a8a453989927@127.36.9.81>;
Datum: 6. August 1997/06:09:01 + 0200 (nicht via Dejanews erhältlich, statt dessen EMail an das Autorenteam)
Newsgruppe: de.comm.infosystems.www.servers;
Autor: Martin Ebert;
Message-ID: 33EE496C.4D7E@wittenberg.de>;
Datum: 11. August 1997/01:06:20 + 0200

[d] http://www.wdvl.com/Location/Search/Robots.html

[e] http://www.wdvl.com/Authoring/HTML/Head/Meta/

[f] http://www.w3.org/PICS/

[g] http://www.w3.org/RDF/

[h] Excite for Web Servers

[i] BUGTRAQ;
‘Security bugs in Excite for Web Servers 1.1’; Michael Gerdts; 30. November 1998 17:20:04 -0600

[j] Glimpse und WebGlimpse; Homepage:
http://glimpse.cs.arizona.edu/webglimpse/;
http://glimpse.cs.arizona.edu/

[k] Roxen-Add-on ‘IntraSeek’ (Volltextsuche in diversen Sprachen)

[l] Roxen-Homepage und Kai Voigt; ‘Nächste Generation; Roxen Challenger 1.2 verfügbar’; iX 4/98, S. 96

[m] ht://Dig-Homepage:
http://www.htdig.org/
http://htdig.sdsu.edu

[n] MOMSpider-Homepage

[o] Zentrale Informationen über Indiziermaschinen:
http://www.searchtools.com/;
http://www.searchenginewatch.com/resources/software.html

Dedizierte Indiziermaschinen
Produkt	Netscape Compass Server	WebGlimpse	ht://Dig	MOMSpider	Webinator
Version	3.01	1.5	3.1.0b3	1	2.5
Preis	ab 1295 US-$, 60-Tage-Test kostenlos	für nicht kommerziellen Einsatz kostenlos	kostenlos	kostenlos	kostenlos bis über 10000 US-$
Anbieter	Netscape	University of Arizona	San Diego State University	University of California	Thunderstone Document Retrieval and Managemant
Lizenz	kommerziell	frei Link zu Glimpse	GNU GPL	frei	freie nur mit Thunderstone-Logo
Datenformate	HTML, PDF, mehr als einhundert weitere	ASCII, HTML	ASCII, HTML, PDF, eigene META-Tags	ASCII, HTML	ASCII, HTML, kommerziellen mehr als einhundert
Datenquellen	HTTP, FTP, Lotus Notes-Datenbanken	Dateisystem, HTTP	HTTP	Dateisystem, HTTP	HTTP
Betriebssysteme	Unix-Derivate,Windows NT 4.0 (o. Support)	Unix-Derivate	Unix-Derivate	Perlscripte für Unix u. Windows	Unix-Derivate
Produkt	Harvest	Swish-E	Roxen IntraSeek	Excite for the Web Servers	Verity Information Server
Version	1.5.20	1.3	1.1	1.1.1	3.6
Preis	kostenlos	kostenlos	auf Anfrage	frei	auf Anfrage
Anbieter	ursprünglich University of Colorado at Boulder	Berkeley Digital Library	Roxen	Excite	Verity
Lizenz	GNU GPL	GNU GPL	kommerziell	GPL	kommerziell
Datenformate	HTML, SGML und viele spezielle	HTML	ASCII, HTML, 14 Landessprachen	ASCII, HTML	HTML,SGML und über 200 weitere
Datenquellen	Dateisystem, HTTP, FTP, NNTP, Gopher	Dateisystem, HTTP	Pike-Quellen, Dateisystem, HTTP	Dateisystem, HTTP	HTTP, Dateisystem, Zusatzmodule
Betriebssysteme	Unix-Derivate	Unix-Derivate, Windows NT	Unix-Derivate	Unix-Derivate	Unix-Derivate

Beliebte Bestenlisten

Alle bestenlisten

Amazon Spring Deals im Preis-Check

Top 10: Das beste Mehrfach-USB-Ladegerät

Top 10: Die beste Gaming-Tastatur im Test – Testsieger Akko vor Logitech & Razer

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}