Napster fĂŒr die Wissenschaft
In den Anfangstagen gehörte das Internet noch der Forschung allein - heute ist ihr die unstruktu-rierte Quervernetzung von allem mit jedem lĂ€ngst ĂŒber den Kopf gewachsen. Ein neues Protokoll verspricht Abhilfe, indem es das Auffinden der im Netz verteilten wissenschaftlichen Veröffentlichungen unterstĂŒtzt.
Das Hypertext Transfer Protokoll, das dem World Wide Web zugrundeliegt, sollte einst den wissenschaftlichen Austausch mit dem âPoint-and-Clickâ-Zugriff auf die Arbeiten der Fachkollegen erleichtern. Doch was die ErschlieĂung des im Netz vorhandenen Materials angeht, hat sich die Erfolgsgeschichte inzwischen nahezu ins Gegenteil verkehrt. Ăberall auf der Welt sind an Forschungszentren, Hochschulen, Instituten und Fachbereichen lokale und regionale Archive entstanden.
Offenes Archiv
Aber die schiere FĂŒlle dessen, was im Internet publiziert wird, macht es immer schwieriger, an die aktuellen Arbeiten eines Fachgebietes heranzukommen. Entweder man geht den mĂŒhsamen Weg der Mikrorecherche und steuert die in Frage kommenden Sites einzeln an; oder man bedient sich einer der groĂen Volltext-Suchmaschinen. Und dann bekommt man bei der Makrorecherche im Web oftmals Unmengen an Links ausgeworfen, die das Herausfiltern der relevanten Information nicht minder beschwerlich machen. Zudem erfassen die Search-Engines die Arbeiten eines Fachgebietes nicht systematisch: Bis vor kurzem beschrĂ€nkten sie sich sogar auf HTML-Dokumente, neuerdings beziehen sie wenigstens PDF-Dateien ein. Das Gros der wissenschaftlichen Arbeiten wird aber nach wie vor in TeX oder Postscript verfasst - von VollstĂ€ndigkeit kann also nicht einmal nĂ€herungsweise die Rede sein.
Diesen unbefriedigenden Zustand zu Ă€ndern, hat sich die 1999 von Wissenschaftlern ins Leben gerufene Open Archives Initiative (OAI) [1 [1]] vorgenommen; die Lösung in Gestalt einer ErgĂ€nzung des http-Protokolls prĂ€sentierte sie auf einem Workshop Ende Februar in Berlin. Damit wĂŒrden âin dem unĂŒbersichtlichen Chaos des WWW strukturierte Inselnâ geschaffen, propagiert Carl Lagoze vom Department of Computer Science der Cornell University den Ansatz. Ăhnlich wie bei der Internet-Tauschbörse Napster geht es darum, das Auffinden sowie den Zugriff auf einzelne Objekte in einem System der weltweit verteilten Datenhaltung zu organisieren; im Unterschied zu Napster gibt es hier jedoch keine Probleme der Fairnis gegenĂŒber den Urhebern, da die Autoren ihre Arbeiten selbst ins Netz stellen und nicht wie Musiker von Tantiemen oder Honoraren leben.
âDas OAI-Protokoll schafft eine Plattform, auf der Suchmaschinen wirklich prĂ€zise arbeiten und den AnsprĂŒchen professioneller Nutzer ge-nĂŒgen könnenâ, betont die Leiterin der Bibliothek und wissenschaftlichen Information des Berliner Max-Planck-Instituts fĂŒr Bildungsforschung, Diann Rusch-Feja, die dem 12-köpfigen Lenkungsausschuss der OAI angehört.
In einigen Disziplinen halten sich Forscher bislang mit speziellen E-Print-Servern ĂŒber die Veröffentlichungen und Ergebnisse ihrer Kollegen auf dem Laufenden. Das erste elektronische Zentralarchiv dieser Art hatte der Elementarteilchenphysiker Paul Ginsparg bereits vor zehn Jahren am Los Alamos National Laboratory in New Mexico eingerichtet; inzwischen dient der Server auch den Astrophysikern und anderen Teilgebieten der Physik als Anlaufstelle und Verteiler [2 [2]]. Wie Ginsparg in Berlin berichtete, zĂ€hlt Los Alamos zwischen 800 000 und 900 000 Zugriffe wöchentlich; einschlieĂlich der weltweit etwa ein Dutzend Spiegelserver sind es rund fĂŒnf Millionen. Obwohl jeden Monat im Durchschnitt 3000 neue Veröffentlichungen hinzu kommen, schĂ€tzt Ginsparg, dass dies nur etwa ein FĂŒnftel aller wissenschaftlichen Publikationen in der Physik umfasst. Und auĂerhalb eines sehr eingegrenzten Fachgebietes können solche zentralen Volltext-Archive keine befriedigende Auskunft geben, was wann wo zu einer bestimmten Forschungsrichtung wie der âNanotechnologieâ oder âNeuroinformatikâ erschienen ist.
Den SchlĂŒssel zu einem effizienteren Retrieval bilden daher so genannte Metadaten. Den wissenschaftlichen Bibliotheken ist es bis jetzt allerdings nicht gelungen, ihre nach unterschiedlichen Standards aufgebauten Online-Kataloge mit einer einheitlichen Schnittstelle zu versehen, die eine ĂŒbergreifende Suche in den gedruckten BestĂ€nden ermöglichen wĂŒrde - geschweige denn, sie zu einem elektronischen Publikationssystem zu erweitern, das quasi in Echtzeit unmittelbar mit dem Erscheinen eines E-Prints auf einem Webserver dessen Metadaten ins Netz stellen und fĂŒr Abfragen verfĂŒgbar machen kann. Genau das soll nun das Open Archives Initiative Protocol for Metadata Harvesting leisten, mit dem Search-Engines die Suche statt im gesamten Raum des WWW in dem Teilbereich der auf OAI-konformen Servern vorgehaltenen Metadaten durchfĂŒhren können.
Forschungsprotokoll
GestĂŒtzt auf die Zuarbeit zahlreicher Fachwissenschaftler in den USA und Europa wurde das Protokoll innerhalb sehr kurzer Zeit nach dem ersten Treffen im Oktober 1999 entwickelt und in der Version OAI 1.0 Ende Januar fertig gestellt. Die Katalogabfragen und -antworten basieren auf http, dem Dokumentformat XML sowie dem als âDublin Coreâ bekannten Standard fĂŒr Metadaten. Dieser definiert einen Mindestsatz von Informationen zur eindeutigen Beschreibung einer Veröffentlichung. Die Einbettung in das XML-Format lĂ€sst jedoch auch die Verwendung ausfĂŒhrlicherer MetadatensĂ€tze zu, sodass jedes Archiv die fachliche Kennzeichnung beliebig verfeinern kann. Dazu bieten sich etwa die in nahezu jeder Disziplin historisch gewachsenen und teilweise standardisierten Gliederungen in Teilgebiete an, beispielsweise das âComputing Classification Schemeâ (CCS) der Informatik.
Einige Einrichtungen, unter anderen das Cern [3 [3]] in Genf und das Rechenzentrum der Humboldt-UniversitĂ€t in Berlin haben das Protokoll mit selbst entwickelter Software schon getestet. âDie Implementierung war keine groĂe Angelegenheitâ, berichtete Jean-Ives Le Meur vom Cern, âwir brauchten dafĂŒr drei Tage.â Die Software besteht im Wesentlichen aus einem Plugin fĂŒr den Webserver, das Ă€hnlich einem konventionellen CGI-Skript die OAI-Protokollanfragen versteht. In welcher Sprache das Skript geschrieben ist, spielt keine Rolle; an der Humboldt-UniversitĂ€t wurde es in PHP4 implementiert [4 [4]]. Auch Retrieval-Interfaces gibt es bereits. Die Prototypen demonstrieren, wie mit einer Suchmaschine erstmals das flĂ€chendeckende Retrieval von wissenschaftlichen Veröffentlichungen in verteilten digitalen Bibliotheken möglich wird. So ermöglicht ###italic[arc]italiczu###, der an der der Old Dominion University in den USA entwickelte Cross Archive Searching Service, von einer Startseite aus die Suche in sechs OAI-Archiven; die Ergebnisse gibt ###italic[arc]italiczu### in einem einheitlichen Format aus, sodass die sechs Archive dem Nutzer nun wie eine einzige wissenschaftliche Fachbibliothek erscheinen [5 [5]].
Lagoze bezeichnete die Open Archives Initiative als âein bescheidenes, aber faszinierendes Experimentâ. Jetzt hĂ€ngt nĂ€mlich alles davon ab, ob die Autoren mitspielen: Damit das Ganze funktioniert, mĂŒssen sie einen kleinen Zusatzaufwand in Kauf nehmen und zu jeder Veröffentlichung einen Metadatensatz mit den standardisierten Vorgaben erstellen. Auch hierfĂŒr wurden bereits Tools entwickelt, wie zum Beispiel der MMM (My Meta Maker), das den Autor bei der einheitlichen Erstellung der Zusatzinformationen unterstĂŒtzt [6 [6]]. Die technischen Fragen sind mit den InteroperabilitĂ€tsspezifikationen sowie den Publishing- und Retrieval-Tools jedenfalls gelöst; die Wissenschaftsorganisationen und Fachgesellschaften stehen nun vor der Aufgabe, wie sie die neue Kommunikationsplattform flĂ€chendeckend einfĂŒhren.
In den USA wird die Open Archive Initiative von der Digital Library Federation, der Coalition for Networked Information, der National Science Foundation und der Defense Advanced Research Projects Agency gefördert. In der Bundesrepublik hat die Deutsche Initiative fĂŒr Netzwerkinformation (DINI) [7 [7]] alle Forschungseinrichtungen, Bibliotheken und Rechenzentren aufgerufen, sich dem neuen Standard anzuschlieĂen und die lokalen Server mit der OAI-Schnittstelle auszustatten. Weil dies die hiesigen Forschungsleistungen auch im Ausland sichtbar macht und âeiner internationalen Verbreitung der wissenschaftlichen Arbeitenâ diene, empfiehlt DINI darĂŒber hinaus dem Bundesforschungsministerium, der Deutschen Forschungsgemeinschaft und anderen Geldgebern, bei der Finanzierung von Projekten âdie Einhaltung der OAI-Spezifikationen zur Voraussetzung der Bewilligung von FörderantrĂ€gen zu machenâ. (jk [8])
Literatur
[1] Open Archives Initiative [10]
[2] Archiv-Server [11] am Los Alamos National Laboratory
[3] OAI [12] beim Cern
[4] OAI [13] an der Humboldt-UniversitÀt
[5] OAI-Retrievalprogramm arc [14]
[6] Hilfsprogramm fĂŒr OAI-Metadaten [15]
[7] Initiative fĂŒr Netzwerkinformation [16] (jk [17])
URL dieses Artikels:
https://www.heise.de/-284934
Links in diesem Artikel:
[1] #literatur
[2] #literatur
[3] #literatur
[4] #literatur
[5] #literatur
[6] #literatur
[7] #literatur
[8] mailto:jk@ct.heise.de
[9]
[10] http://www.openarchives.org/
[11] http://arxiv.org/
[12] http://doc.cern.ch/OAI/
[13] http://dochost.rz.hu-berlin.de/oai/
[14] http://arc.cs.odu.edu/
[15] http://physnet.uni-oldenburg.de/services/mmm/
[16] http://www.dini.de/
[17] mailto:jk@heise.de
Copyright © 2001 Heise Medien