Napster für die Wissenschaft

| 12.03.2001 00:00 Uhr Richard Sietmann

In den Anfangstagen gehörte das Internet noch der Forschung allein - heute ist ihr die unstruktu-rierte Quervernetzung von allem mit jedem längst über den Kopf gewachsen. Ein neues Protokoll verspricht Abhilfe, indem es das Auffinden der im Netz verteilten wissenschaftlichen Veröffentlichungen unterstützt.

Das Hypertext Transfer Protokoll, das dem World Wide Web zugrundeliegt, sollte einst den wissenschaftlichen Austausch mit dem ‘Point-and-Click’-Zugriff auf die Arbeiten der Fachkollegen erleichtern. Doch was die Erschließung des im Netz vorhandenen Materials angeht, hat sich die Erfolgsgeschichte inzwischen nahezu ins Gegenteil verkehrt. Überall auf der Welt sind an Forschungszentren, Hochschulen, Instituten und Fachbereichen lokale und regionale Archive entstanden.

Offenes Archiv

Aber die schiere Fülle dessen, was im Internet publiziert wird, macht es immer schwieriger, an die aktuellen Arbeiten eines Fachgebietes heranzukommen. Entweder man geht den mühsamen Weg der Mikrorecherche und steuert die in Frage kommenden Sites einzeln an; oder man bedient sich einer der großen Volltext-Suchmaschinen. Und dann bekommt man bei der Makrorecherche im Web oftmals Unmengen an Links ausgeworfen, die das Herausfiltern der relevanten Information nicht minder beschwerlich machen. Zudem erfassen die Search-Engines die Arbeiten eines Fachgebietes nicht systematisch: Bis vor kurzem beschränkten sie sich sogar auf HTML-Dokumente, neuerdings beziehen sie wenigstens PDF-Dateien ein. Das Gros der wissenschaftlichen Arbeiten wird aber nach wie vor in TeX oder Postscript verfasst - von Vollständigkeit kann also nicht einmal näherungsweise die Rede sein.

Diesen unbefriedigenden Zustand zu ändern, hat sich die 1999 von Wissenschaftlern ins Leben gerufene Open Archives Initiative (OAI) [1 [1]] vorgenommen; die Lösung in Gestalt einer Ergänzung des http-Protokolls präsentierte sie auf einem Workshop Ende Februar in Berlin. Damit würden ‘in dem unübersichtlichen Chaos des WWW strukturierte Inseln’ geschaffen, propagiert Carl Lagoze vom Department of Computer Science der Cornell University den Ansatz. Ähnlich wie bei der Internet-Tauschbörse Napster geht es darum, das Auffinden sowie den Zugriff auf einzelne Objekte in einem System der weltweit verteilten Datenhaltung zu organisieren; im Unterschied zu Napster gibt es hier jedoch keine Probleme der Fairnis gegenüber den Urhebern, da die Autoren ihre Arbeiten selbst ins Netz stellen und nicht wie Musiker von Tantiemen oder Honoraren leben.

‘Das OAI-Protokoll schafft eine Plattform, auf der Suchmaschinen wirklich präzise arbeiten und den Ansprüchen professioneller Nutzer ge-nügen können’, betont die Leiterin der Bibliothek und wissenschaftlichen Information des Berliner Max-Planck-Instituts für Bildungsforschung, Diann Rusch-Feja, die dem 12-köpfigen Lenkungsausschuss der OAI angehört.

In einigen Disziplinen halten sich Forscher bislang mit speziellen E-Print-Servern über die Veröffentlichungen und Ergebnisse ihrer Kollegen auf dem Laufenden. Das erste elektronische Zentralarchiv dieser Art hatte der Elementarteilchenphysiker Paul Ginsparg bereits vor zehn Jahren am Los Alamos National Laboratory in New Mexico eingerichtet; inzwischen dient der Server auch den Astrophysikern und anderen Teilgebieten der Physik als Anlaufstelle und Verteiler [2 [2]]. Wie Ginsparg in Berlin berichtete, zählt Los Alamos zwischen 800 000 und 900 000 Zugriffe wöchentlich; einschließlich der weltweit etwa ein Dutzend Spiegelserver sind es rund fünf Millionen. Obwohl jeden Monat im Durchschnitt 3000 neue Veröffentlichungen hinzu kommen, schätzt Ginsparg, dass dies nur etwa ein Fünftel aller wissenschaftlichen Publikationen in der Physik umfasst. Und außerhalb eines sehr eingegrenzten Fachgebietes können solche zentralen Volltext-Archive keine befriedigende Auskunft geben, was wann wo zu einer bestimmten Forschungsrichtung wie der ‘Nanotechnologie’ oder ‘Neuroinformatik’ erschienen ist.

Den Schlüssel zu einem effizienteren Retrieval bilden daher so genannte Metadaten. Den wissenschaftlichen Bibliotheken ist es bis jetzt allerdings nicht gelungen, ihre nach unterschiedlichen Standards aufgebauten Online-Kataloge mit einer einheitlichen Schnittstelle zu versehen, die eine übergreifende Suche in den gedruckten Beständen ermöglichen würde - geschweige denn, sie zu einem elektronischen Publikationssystem zu erweitern, das quasi in Echtzeit unmittelbar mit dem Erscheinen eines E-Prints auf einem Webserver dessen Metadaten ins Netz stellen und für Abfragen verfügbar machen kann. Genau das soll nun das Open Archives Initiative Protocol for Metadata Harvesting leisten, mit dem Search-Engines die Suche statt im gesamten Raum des WWW in dem Teilbereich der auf OAI-konformen Servern vorgehaltenen Metadaten durchführen können.

Forschungsprotokoll

Gestützt auf die Zuarbeit zahlreicher Fachwissenschaftler in den USA und Europa wurde das Protokoll innerhalb sehr kurzer Zeit nach dem ersten Treffen im Oktober 1999 entwickelt und in der Version OAI 1.0 Ende Januar fertig gestellt. Die Katalogabfragen und -antworten basieren auf http, dem Dokumentformat XML sowie dem als ‘Dublin Core’ bekannten Standard für Metadaten. Dieser definiert einen Mindestsatz von Informationen zur eindeutigen Beschreibung einer Veröffentlichung. Die Einbettung in das XML-Format lässt jedoch auch die Verwendung ausführlicherer Metadatensätze zu, sodass jedes Archiv die fachliche Kennzeichnung beliebig verfeinern kann. Dazu bieten sich etwa die in nahezu jeder Disziplin historisch gewachsenen und teilweise standardisierten Gliederungen in Teilgebiete an, beispielsweise das ‘Computing Classification Scheme’ (CCS) der Informatik.

Einige Einrichtungen, unter anderen das Cern [3 [3]] in Genf und das Rechenzentrum der Humboldt-Universität in Berlin haben das Protokoll mit selbst entwickelter Software schon getestet. ‘Die Implementierung war keine große Angelegenheit’, berichtete Jean-Ives Le Meur vom Cern, ‘wir brauchten dafür drei Tage.’ Die Software besteht im Wesentlichen aus einem Plugin für den Webserver, das ähnlich einem konventionellen CGI-Skript die OAI-Protokollanfragen versteht. In welcher Sprache das Skript geschrieben ist, spielt keine Rolle; an der Humboldt-Universität wurde es in PHP4 implementiert [4 [4]]. Auch Retrieval-Interfaces gibt es bereits. Die Prototypen demonstrieren, wie mit einer Suchmaschine erstmals das flächendeckende Retrieval von wissenschaftlichen Veröffentlichungen in verteilten digitalen Bibliotheken möglich wird. So ermöglicht ###italic[arc]italiczu###, der an der der Old Dominion University in den USA entwickelte Cross Archive Searching Service, von einer Startseite aus die Suche in sechs OAI-Archiven; die Ergebnisse gibt ###italic[arc]italiczu### in einem einheitlichen Format aus, sodass die sechs Archive dem Nutzer nun wie eine einzige wissenschaftliche Fachbibliothek erscheinen [5 [5]].

Lagoze bezeichnete die Open Archives Initiative als ‘ein bescheidenes, aber faszinierendes Experiment’. Jetzt hängt nämlich alles davon ab, ob die Autoren mitspielen: Damit das Ganze funktioniert, müssen sie einen kleinen Zusatzaufwand in Kauf nehmen und zu jeder Veröffentlichung einen Metadatensatz mit den standardisierten Vorgaben erstellen. Auch hierfür wurden bereits Tools entwickelt, wie zum Beispiel der MMM (My Meta Maker), das den Autor bei der einheitlichen Erstellung der Zusatzinformationen unterstützt [6 [6]]. Die technischen Fragen sind mit den Interoperabilitätsspezifikationen sowie den Publishing- und Retrieval-Tools jedenfalls gelöst; die Wissenschaftsorganisationen und Fachgesellschaften stehen nun vor der Aufgabe, wie sie die neue Kommunikationsplattform flächendeckend einführen.

In den USA wird die Open Archive Initiative von der Digital Library Federation, der Coalition for Networked Information, der National Science Foundation und der Defense Advanced Research Projects Agency gefördert. In der Bundesrepublik hat die Deutsche Initiative für Netzwerkinformation (DINI) [7 [7]] alle Forschungseinrichtungen, Bibliotheken und Rechenzentren aufgerufen, sich dem neuen Standard anzuschließen und die lokalen Server mit der OAI-Schnittstelle auszustatten. Weil dies die hiesigen Forschungsleistungen auch im Ausland sichtbar macht und ‘einer internationalen Verbreitung der wissenschaftlichen Arbeiten’ diene, empfiehlt DINI darüber hinaus dem Bundesforschungsministerium, der Deutschen Forschungsgemeinschaft und anderen Geldgebern, bei der Finanzierung von Projekten ‘die Einhaltung der OAI-Spezifikationen zur Voraussetzung der Bewilligung von Förderanträgen zu machen’. (jk [8])

[9]

Literatur

[1] Open Archives Initiative [10]

[2] Archiv-Server [11] am Los Alamos National Laboratory

[3] OAI [12] beim Cern

[4] OAI [13] an der Humboldt-Universität

[5] OAI-Retrievalprogramm arc [14]

[6] Hilfsprogramm für OAI-Metadaten [15]

[7] Initiative für Netzwerkinformation [16] (jk [17])

URL dieses Artikels:
https://www.heise.de/-284934

Links in diesem Artikel:
[1] #literatur
[2] #literatur
[3] #literatur
[4] #literatur
[5] #literatur
[6] #literatur
[7] #literatur
[8] mailto:jk@ct.heise.de
[9]
[10] http://www.openarchives.org/
[11] http://arxiv.org/
[12] http://doc.cern.ch/OAI/
[13] http://dochost.rz.hu-berlin.de/oai/
[14] http://arc.cs.odu.edu/
[15] http://physnet.uni-oldenburg.de/services/mmm/
[16] http://www.dini.de/
[17] mailto:jk@heise.de