Angeln in der Info-Welle

Mit dem Aufkommen des multimedialen World Wide Web war der Boom des Internet nicht mehr aufzuhalten - mittlerweile rechnet man mit rund 50 Millionen Teilnehmern. Da hatte das ursprünglich als Alternative ausgelegte HyperWave kaum mehr eine Chance, sich zu etablieren. Deshalb peilen seine Entwickler mit der neuen Version nun die firmeninternen Netze an.

11.04.1997, 00:00 Uhr

Lesezeit: 17 Min.

c't Magazin

Von

Udo Flohr

Für Intranets ist HyperWave in der Tat der gelungenere Ansatz als ein TCP/IP-Netz mit WWW-Aufsätzen. HyperWave ist kompatibel zu den Techniken des World Wide Web, räumt aber mit so manchen Schwächen herkömmlicher HTTP-Server auf. Es vermeidet zum Beispiel `tote´ Verweise, vereinfacht die globale Suche und basiert auf einer objektorientierten Datenbank. Inhalt, Form und Meta-Information werden getrennt und unabhängig voneinander behandelt. Hyper-Links sind nicht mehr starr im HTML-Text vergraben, sondern werden aus einer Datenbank dynamisch generiert. Sowohl die Erstellung als auch die Wartung mittlerer bis größerer Sites wird so flexibler und kostengünstiger.

Das World Wide Web bietet im wesentlichen nur einen Strukturierungsmechanismus, der die verschiedenen Dokumente und Datentypen organisiert: Hypertext-Anker, die Dokumente miteinander verbinden. Diese Links werden, manchmal sogar umständlich von Hand, direkt in den Text eingefügt.

HyperWave vs. WWW

Per HTML lassen sich einfache, menüähnliche hierarchische Strukturen erzeugen. Prinzipiell bleiben Web-Datenbanken aber `flach´, das heißt, sie sind lose Gruppen über Hypertext-Zeiger miteinander verbundener Dateien. Kleine bis mittelgroße Server lassen sich so zwar relativ schnell einrichten. Sobald ein System jedoch einige hundert Seiten umfaßt, wird seine Wartung umständlich und kostenintensiv. Weitere Nachteile und Einschränkungen des WWW sind:

Es fehlen Volltext-Suchmechanismen und Features zur Suche über Server-Grenzen hinweg sowie integrierte Tools zur Indizierung der Datenbestände. Inzwischen gibt es zwar zahlreiche Server mit Suchmaschinen; diese gehen aber nach einer Art `Brute Force-Methode´ vor und belasten das Netz, weil sie weltweit alle Server aufsuchen und für jeden einzelnen einen Volltext-Index des gesamten Datenbestandes erstellen.
WWW-Nutzer kommen sich gelegentlich vor wie beim `Memory´-Spielen. Auf der Suche nach der richtigen Information verfolgt man diverse Links; hinterher fehlt manchmal der Überblick, welche schon ausprobiert wurden. Zwar heben die meisten Browser `abgegraste´ Links farblich hervor, aber das Zieldokument könnte sich zwischenzeitlich auch geändert haben: es fehlt eine einheitliche Versionskontrolle.
Veraltete Informationen lassen sich meist nur schwer identifizieren.
Nutzer bauen durch munteres Klicken auf Hyperlinks assoziative Ketten auf, die sich bald kreuz und quer durch den Cyberspace spannen; oft aber vermissen sie strukturelle Navigationshilfen. Allzu schnell kann man sich im Hyper-Raum verlaufen. Ein rascher Überblick über das Informationsangebot auch nur eines Servers ist unmöglich, es sei denn, der Betreiber bereitet es umständlich vor.
Oft wäre ein Feedback darüber angebracht, wieviel Information sich hinter einem Link verbirgt und welcher Prozentsatz bereits gelesen ist. Bei einem Buch weiß man, wann man am Ende angelangt ist; Hypermedia-Systeme sorgen hier häufig für Verwirrung.

Da praktikable Zugangskontrollmechanismen fehlen, werden Server, häufig sogar innerhalb des Betriebes, als `Inseln´ implementiert. Eine derartige Abschottung kann zwar aus Sicherheitsgründen unvermeidlich sein, führt jedoch die Idee, Information zu verbinden, ad absurdum. Eine globale Suche wird noch schwieriger.

Vor dem WWW sind alle User gleich. Eine Differenzierung zwischen verschiedenen Benutzergruppen mit unterschiedlichen Rechten erfordert speziell programmierte Erweiterungen.
Infolge der Arbeitsweise des Hypertext Transport Protocol (HTTP) sind Dokumente häufig nicht mehr unter einem URL auffindbar. Das liegt daran, daß der URL sich unmittelbar aus dem Verzeichnispfad ergibt. Wird die Hierarchie auf dem Server reorganisiert und ein Dokument dabei verschoben, ändert sich dessen URL. Dasselbe geschieht, wenn man ein Dokument umbenennt. Noch schlimmer: Ein URL kann heute auf ein Objekt und morgen auf ein anderes zeigen, das zufällig denselben Dateinamen hat. Sinnvoller wäre es, wenn URLs sich aus inhaltlichen Kriterien ergäben und überhaupt nicht an die Datei-Organisation gekoppelt wären.
Man kann Hypertext-Links nicht zurückverfolgen. So bleibt unklar, welche Dokumente auf dasjenige verweisen, das verschoben oder gelöscht werden soll. Damit kommt es zu den berüchtigten `Dangling Links´, die ins Nirwana zeigen. Selbst innerhalb eines Servers können sie auftreten.
HTTP ist ein verbindungsloses (connectionless) Protokoll, das für jede Anfrage eine neue Client-Server-Verbindung aufbaut. Es ist damit zwangsläufig auch ein `stateless´ Protokoll, das Status-Informationen nicht speichert; sie werden immer wieder neu übertragen.
Bei typischem WWW-Betrieb per HTTP wird bei weitem nicht die gesamte Bandbreite genutzt; ein viel zu großer Anteil geht für Overhead drauf. Das liegt zum Beispiel daran, daß jedes Öffnen einer neuen Verbindung drei TCP-Pakete verschickt, das Schließen gar vier. Enthält eine WWW-Seite Inline-Grafiken, erfordert jede Grafik eine neue Verbindung. Zum Vergleich: eine FTP-Verbindung nutzt fast 100 Prozent der Bandbreite.

Eine Skalierung erweist sich als schwierig. Reicht ein Rechner für den Server-Betrieb nicht mehr aus, muß sich der Betreiber selbst einen Mechanismus einfallen lassen, Anfragen zu verteilen.

Solche Probleme haben der Popularität des WWW keinen Abbruch getan, denn seine Nutzer merken wenig davon. Die Verwaltung einer expandierenden Web-Site kann jedoch schnell zum Alptraum werden. Stabile Informationsangebote sind nur mit massivem Arbeitsaufwand zu garantieren.

Probleme, die beim einzelnen Server nur lästig sind, multiplizieren sich angesichts der riesigen, unstrukturierten Datenmengen, unter denen das WWW insgesamt zusammenzubrechen droht. Manche Probleme sind auf einzelnen Servern durchaus befriedigend gelöst. Das Problem dabei: Solche Lösungen haben Inselcharakter, Inkompatibilitäten werden gefördert. Oft sind bestimmte Browser erforderlich.

HyperWave versucht, den meisten dieser Mängel abzuhelfen. Die Entwickler wollten `nicht nur Hypertext, sondern echte Hypermedia-Features´ bieten. Neben Text und Grafik werden etwa auch digitale Audio- und Video-Dateien, PostScript und 3D-Szenen sowie diverse herstellerspezifische Formate (etwa MS Office oder CAD-Zeichnungen wie DWG) unterstützt. Browser unterstützen solche externen Formate typischerweise über Plug-ins von Drittanbietern (die sich natürlich auch in einer HyperWave-Umgebung weiterverwenden lassen).

OO-Server

In seiner Architektur ist der HyperWave Information Server eine objektorientierte Datenbank, die Dokumente, Links und Attribute getrennt verwaltet. Dadurch gewährleistet er automatische Link-Konsistenz und verringert den Wartungsaufwand. Objekte können zudem mit frei definierbaren Attributen wie zum Beispiel Autor, Datum, Gültigkeitszeitraum oder Preis versehen werden.

Während Hyperlinks in herkömmlichen WWW-Servern nur in Text und Grafiken vorkommen dürfen, unterstützt HyperWave sie in beliebigen Dokument-Typen. Es behandelt Links als separate, bidirektionale Objekte - sie können also auch zurückverfolgt werden und Attribute tragen. URLs sind nicht mehr fest in den HTML-Dokumenten kodiert, der Server generiert sie beim Abruf. Bei Änderungen werden sie automatisch aktualisiert. Linkstrukturen bleiben konsistent, auch wenn Objekte verschoben oder gelöscht werden.

Die separat gespeicherten Links können auch für Datenformate wie zum Beispiel MPEG-Videos definiert werden, ohne daß man solche Standards ändern müßte.

HyperWaves Datenstrukturen verknüpfen Dokumente so, daß die Anzahl der Links drastisch verringert wird. Das erleichtert nicht nur die Pflege, sondern vor allem auch die Navigation: der Benutzer kann Dokumente anhand der Hyperlinks oder über eine Windows-Explorer-ähnliche Baumstruktur finden und aufrufen.

In früheren Versionen wurden Dokumente im `Hyper-G Text Format´ (HTF) kodiert. Inzwischen wird HTML direkt unterstützt, was die Migration erleichtert. Einige weitere Features sind:

Dokumente in verschiedenen Sprachen werden zu `Clustern´ zusammengefaßt.
Cluster helfen auch bei der dynamischen Anpassung an verschiedene Gegebenheiten beim User, indem sie zum Beispiel unter demselben URL eine Grafik automatisch in Schwarzweiß oder als 24-Bit-Image liefern, je nach Ausgabegerät.
`Information Landscapes´ liefern eine interaktive, dreidimensionale Repräsentation der Datenbank-Struktur. Benutzer `fliegen´ über die Informations-Hierarchie. Farbe und Höhe der 3D-Objekte bilden Typ und Größe des korrespondierenden Dokuments ab. Veränderungen der Datenbank reflektiert das System unmittelbar.
Man kann gezielt nach Attributen suchen, beispielsweise nach allen in einem bestimmten Zeitraum erstellten Dokumenten.
Wird ein neues Dokument in die Struktur eingefügt, nimmt der Server es sogleich in den Volltext-Index auf.
Die integrierte, Unix-ähnliche Zugangskontrolle regelt nicht nur Zugriffe auf den Server; Rechte lassen sich für Dokumente, Links und Strukturen spezifizieren und abstufen (nur Lesen, Modifizieren usw.).
Anbieter kommerzieller Informationen können Dokumente mit Preisen versehen und benutzerbezogen abrechnen.

HyperWave gestattet es, nur die Informationen zur Verfügung zu stellen, die für den jeweiligen Anwender oder die Gruppe von Bedeutung sind. Ein Serverbetreiber kann so Web-Inhalte maßgeschneidert anbieten.

Jeder Nutzer kann Anmerkungen zu HyperWave-Dokumenten verfassen. Solche Annotationen helfen beim Aufbau von Groupware-Systemen. Bei Filmen erlaubt HyperWave, einen Link zu definieren, der einem Objekt automatisch folgt und beispielsweise sichtbar ist, solange ein Auto durch das Bild fährt.

Suchanfragen über die eingebaute Volltext-Engine lassen sich ausführlich variieren. Die Ergebnis-Liste ist nach einer Schätzung der Relevanz einer Fundstelle gestaffelt.

Architektur

Im herkömmlichen WWW gibt es strukturell gesehen nur eine Klasse, das Dokument. HyperWave dagegen organisiert Dokumente in Kollektionen und Cluster. Der Cluster ist die grundlegende Einheit der Datenbankstruktur. Er kann das gleiche Dokument in verschiedener Gestalt enthalten. So sind Features wie Mehrsprachigkeit oder verschiedene Repräsentationen eines Dokumentes implementiert.

Dokumente und/oder Cluster werden zu Kollektionen kombiniert. Eine Kollektion kann zu einer oder mehreren `Mutter´-Kollektionen gehören. Kollektionen und Cluster haben Attribute. Man kann Dokumente in die Hierarchie einfügen, ohne für sie zunächst Links zu definieren; sie werden automatisch Teil der Kollektions-Hierarchie. Dies ist im herkömmlichen WWW nicht möglich - ein Dokument ohne Link wäre nicht erreichbar.

Dokumente müssen zumindest einer Kollektion angehören, können jedoch auch in anderen Mitglied sein. Dies kommt in der Praxis häufig vor und bildet Beziehungen innerhalb der Information ab, die sonst im WWW oft zu `Spaghettisalat´ führen. In HyperWave gewährleistet die Datenbank die Konsistenz.

Mathematisch gesehen, bildet die Kollektionshierarchie einen `gerichteten azyklischen Graphen´; Links dürfen nicht zyklisch verweisen, eine Baumstruktur muß erhalten bleiben. Kollektionen können sich über mehrere HyperWave-Server erstrecken und so einen einheitlichen Blick auf verteilt gehaltene Informationen ermöglichen. Mit einem einzigen Kommando kann man verschiedene Server zu einer gemeinsamen, `verteilten´ Datenbank kombinieren. Alle Server - weltweit - sind Mitglieder einer virtuellen `Root Collection´, die Hyper-Root genannt wird.

Der Server verwaltet Objekt-Attribute, organisiert Kollektionen und verbindet Clients mit der Link-Datenbank. Er enthält drei separate Komponenten: Der Volltext-Server indiziert Textdokumente, der Dokumenten-Server verwaltet und speichert Dokumente, und der Link Server speichert Hyperlinks und stellt deren referentielle Konsistenz sicher.

Ist ein User einmal identifiziert, verwendet HyperWave ein effizientes, `verbindungsorientiertes´ Protokoll. Das heißt: wo WWW-Clients normalerweise während einer Sitzung mit verschiedenen Servern in Verbindung treten, bleibt ein Client hier mit demselben Server verbunden. Benötigt man ein entferntes Dokument, besorgt es der lokale Server und leitet es weiter. Das hat die Vorteile, daß ein Nutzer sich nur an einem Server zu identifizieren braucht (der auch Account-Daten und Zugriffsrechte verwaltet), daß der Server - und nicht der einzelne Client - sich um externe Protokolle und die eventuell nötige Datenkonvertierung kümmert und daß der lokale Cache Informationen von einem entfernten Server zwischenspeichern kann.

Zentrale Schaltstelle ist der Link-Server. Sein Rückgrat bildet die objektorientierte Datenbank. Dort werden unter anderem die Beziehungen der Objekte und ihre Attribute verwaltet.

Um die Skalierbarkeit (viele Benutzer wollen auf dasselbe Dokument zugreifen) zu verbessern, ermöglicht HyperWave die Replikation von Objekten. Dabei wird eine lokale Kopie entfernter Dokumente angelegt. Da sie sowieso der vom Benutzer bevorzugte lokale Server liefert, kann dieser leicht nachprüfen, ob eine Kopie vorliegt.

Replikation ist aber nicht dasselbe wie Caching: Im Cache steht nur eine Kopie des Dokuments, nicht jedoch Links und andere Meta-Informationen. Die Replikation dagegen übernimmt alle relevanten Objekte.

Alles neu macht die Zwei

Wer Informationen nicht nur konsumieren, sondern auch publizieren wollte, mußte bisher zu Hyper-G-eigenen Clients wie `Amadeus´ oder `Harmony´ greifen. Mit der zur CeBIT vorgestellten HyperWave-Version 2 sind nun auch gängige Web-Browser `sendefähig´, etwa Netscapes Navigator oder der Internet Explorer. Unter Windows 95 und NT kommt darüber hinaus Microsofts `WebPost API´ zum Einsatz: In Kombination mit dem `Publishing Wizard´ ermöglicht es, Dokumente oder auch ganze Verzeichnisstrukturen direkt aus Windows oder aus einer Applikation heraus auf den Server zu stellen.

Bei der Arbeit mit einem Browser steht die ganze Palette der Eingriffsmöglichkeiten zur Verfügung. Neben dem Upload kann man Dokumente auf dem Server modifizieren, komplette Kollektionen, Cluster oder Sequenzen einrichten und Zugriffsrechte anderer Nutzer verwalten (entsprechende Autorisierung vorausgesetzt). Der Publishing Wizard dagegen gestattet ein besonders einfaches Arbeiten über Drag & Drop und die rechte Maustaste.

Mit dem eigens für Wartungsarbeiten vorgesehenen Collection Browser, einem Java-Applet mit eigenem Fenster, kann man in einem Überblicksfenster die ganze Hierarchie bequem bearbeiten. Annotationen, ebenfalls aus dem Browser nach Klick auf ein Bleistift-Icon angebracht, sind wahlweise nur für den Nutzer, für die Gruppe oder für alle sichtbar.

Weitere Neuerungen betreffen den Server und seine Integration in vorhandene Infrastruktur. Den HyperWave Information Server gibt es für die Plattformen Windows NT 4.0, Linux 1.x/2.x, BSDI 2.1, DEC Unix V 3.2, HP-UX 9.x/10.x, AIX 4.1, IRIX 5.3 oder höher, Sun OS 4.1.3 und Solaris 2.4 oder höher.

Er läßt sich an einen vorhandenen Web-Server so anschließen, daß Dokumente transparent von beiden abrufbar sind. Etwaige Erweiterungen und Plug-ins bleiben nutzbar; der Umstieg wird schmerzloser. Wer will, kann Dokumente nach und nach auf die HyperWave-Seite transferieren.

Das neue HyperWave Gateway Interface (HGI) vereinfacht den Zugriff auf SQL- und andere Datenbanken. Es arbeitet verbindungsorientiert und effizienter als CGI.

Der Volltext-Indexer, der neue Dokumente automatisch auswertet, kann über externe Filter beliebige Dokumenttypen verarbeiten. Mit selbsterstellten Filterprogrammen kann man das System den eigenen Bedürfnissen anpassen. Filter für PostScript und PDF sind in Vorbereitung.

Selbstdefinierte Attribute (zum Beispiel die ISBN in einer bibliographischen Datenbank) können indiziert und in das Standard-Suchformular aufgenommen werden.

Das neue Werkzeug `hwdownload´ exportiert Daten, einschließlich der Meta-Information, im HTML-Format. Es eignet sich zur Rückübernahme der Daten in einen herkömmlichen Web-Server sowie für die CD-ROM-Produktion.

Bei Einrichtung und Administration des Systems hilft `WaveSetup´. Die Nutzer-Verwaltung ist aber auch mit vorhandenen, externen Tools möglich. Eine Unterstützung für Directory-Services wie X.500 und NIS ist in Vorbereitung. Ein `Tribe´ aus mehreren Servern nutzt, zum Beispiel im Intranet, eine gemeinsame User-Verwaltung. Eine verschlüsselte und authentisierte Client-Server-Kommunikation nach dem SSL-(Secure Socket Layer)-Protokoll wird ab Version 2 unterstützt.

Vier neue Handbücher, aufgeteilt nach Nutzer, Administrator, Programmierer und Referenz, werden als HTML und PDF mitgeliefert.

Fazit

Bei Preisen ab etwa 5000 Mark stellt sich die Frage, ob HyperWave den großen Durchbruch aus der akademischen Umgebung schaffen kann - etliche WWW-Server sind für einen Bruchteil oder kostenlos zu haben. Andererseits reduziert es durch bessere Struktur und weitgehende Automatisierung von Routinevorgängen die Kosten für das Informationsmanagement drastisch.

Wird es der neuen Firma gelingen, sich vom Universitäts-Umfeld abzusetzen? HyperWave scheint technologisch überlegen, aber zahlreiche Beispiele belegen, daß es in der EDV-Branche oft eher auf Marketing-Macht ankommt.

Den nicht realisierbaren Anspruch, als WWW-Alternative aufzutreten, haben die Grazer zum Glück aufgegeben. HyperWave kommt heute als ganz normaler HTTP-Server daher. Konkurrenten sind einerseits herkömmliche Web-Server, andererseits Archivierungssysteme. Als Rivale kann auch Lotus Notes gelten, das jedoch auf proprietären Protokollen basiert und erst jetzt um offene Standards wie HTTP und TCP/IP erweitert wird.

HyperWave eignet sich besonders für das unternehmensweite Dokumenten-Management, technische Dokumentation, Web-Publishing, Computer Based Training und Multimedia-Anwendungen. Zielgruppe sind zum Beispiel Industrieunternehmen und Verlagshäuser, die oft ganze Stäbe mit der Pflege ihres Online-Angebots beschäftigen. Eine Reorganisation mehrerer Tausend Seiten ist für solche Anwender ein Alptraum; HyperWave erledigt sie praktisch nebenbei.

An Anwendern solchen Kalibers herrschte schon im Forschungsstadium kein Mangel: Sumitomo, Boing, Daimler sind nur einige der großen Namen. Die EU betreibt inzwischen zwölf Projekte mit HyperWave. Beim Elektronikkonzern Motorola, der weltweit rund 1000 Web-Server betreibt, soll HyperWave als Bindeglied dienen. Die Motorola-Universität, eine der größten privaten Ausbildungsstätten, setzt auf HyperWave für den Aufbau einer internationalen Trainings-Umgebung. Bleibt abzuwarten, ob der ganz große Durchbruch gelingt. (se) (ha)

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}