Hundert Jahre auf Band

Viele Daten vom Beginn der Computerisierung sind bereits verloren. Ein neues Projekt erlaubt es, Datensicherung über ein Jahrhundert hinweg zu delegieren.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 5 Min.

Die Heimcomputer der achtziger Jahren sind längst zu Sammelobjekten geworden, die höchstens noch wegen nostalgischer Anwandlungen ab und zu hochgefahren werden. In der Deutschen Nationalbibliothek in Frankfurt aber werden die C64er, Ataris, Amigas und 5,25-Zoll-Floppys jener Zeit noch richtig gefordert: Die Uralt-Rechner sind Teil des vom Bundesbildungsministerium mit 4,2 Millionen Euro geförderten Projekts "Kopal" ("Kooperativer Aufbau eines Langzeitarchivs digitaler Informationen"), das digitale Hinterlassenschaften für künftige Generationen erhalten soll.

Seit Juni ist das System bei der Deutschen Nationalbibliothek sowie der Niedersächsischen Staats- und Universitätsbibliothek Göttingen in Betrieb. Dabei geht es um weit mehr als die Rettung von literarischen Schätzen: Auch andere Institutionen und Unternehmen können davon Gebrauch machen. Sie haben die Wahl, ob sie ihre Datensicherung komplett an Kopal delegieren, dort ein eigenes digitales Schließfach betreiben oder ihre Daten selbst, aber mit Betreuung durch das Projekt, archivieren möchten. Zudem wird die Software dahinter, die zusammen mit IBM entwickelt wurde, getrennt vermarktet.

Vor allem bei Kultur und Wissenschaft gibt es akuten Handlungsbedarf: "Das 19. Jahrhundert ist bedeutend besser dokumentiert als die sechziger Jahre des letzten Jahrhunderts", sagt Kopal-Gesamtprojektleiter Reinhard Altenhöner von der Deutschen Nationalbibliothek. Um die Gegenwart ist es kaum besser bestellt. Die Datenflut, die es zu bändigen gilt, schwillt immer mehr an; gleichzeitig sinkt die Qualität der gängigen Speichermedien: "Die Haltbarkeits-Prognose von selbst gebrannten CDs ist sehr schlecht. DVDs sind tendenziell sogar noch schlechter, weil sie dichter beschrieben werden", sagt Altenhöner. Dazu komme der schnelle Wandel der Speicher-Hardware – irgendwann gebe es "nur noch ein paar Lesegeräte, die von Freaks gewartet werden".

Die klassische Methode, dieses Problem zu lösen, ist die sogenannte Bitstream Preservation. Dabei werden die Daten regelmäßig auf neue Speichermedien umkopiert. Auch beim Kopal-Projekt ist Bitstream Preservation die zentrale Säule der Archivierung. Aber das ist nur der erste Schritt: "Wir haben hundert Jahre im Blick. Dabei haben wir schnell gemerkt, dass wir mit der reinen Bitstream Preservation nicht weiterkommen", sagt Altenhöner. Denn selbst wenn Daten Bit für Bit erhalten bleiben, heißt das noch nicht, dass sie auch gelesen werden können – ohne die passende Software sind sie ein kryptischer Datenfriedhof. Hier bereiten gerade die neunziger Jahre mit ihrer großen Formatvielfalt den Archivaren Sorge. Immerhin: "Mittlerweile gibt es nicht mehr so viele proprietäre Formate wie in den Neunzigern. Das Bewusstsein, dass man Dateiformate offen und transparent anlegen muss, nimmt zu", hat Altenhöner festgestellt.

Um auch die historische Formatvielfalt in den Griff zu bekommen, haben die Kopal-Partner eine Software entwickelt, die automatisch technische Eckpunkte einer Datei – also Format, Betriebssystem, Versionsnummer der verwendeten Software und dergleichen – extrahiert und in eine Datenbank schreibt. So haben die Archivare einen Überblick darüber, welche Dateien auf einer vom Verschwinden bedrohten Software beruhen. Damit diese Metadaten nicht ihrerseits irgendwann unleserlich werden, werden sie im weit verbreiteten Klartext-Format XML abgespeichert, das Menschen notfalls auch ohne spezielle Software lesen können. Die Entscheidung allerdings, was mit aussterbenden Formaten passieren soll, lässt sich nicht so einfach automatisieren.

Hier ist menschliche Expertise gefragt. Prinzipiell gibt es zwei Möglichkeiten, alte Dateien zu retten: Emulation und Migration. Bei der Emulation wird die ursprüngliche Software auf einer aktuellen Computer-Plattform simuliert, sodass sie die Originaldatei lesen kann; bei der Migration wird die Datei selbst in ein aktuelleres Format konvertiert. Welcher Weg besser ist, wird von Fall zu Fall entschieden.

Die gesammelten Daten werden im Kopal-Projekt in zwei einige Kilometer voneinander entfernten Serverclustern der Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen (GWDG) gespeichert, ein weiterer Standort in München ist geplant. Derzeit stehen neun Server mit maximal 89 Terabyte Festplattenkapazität zur Verfügung. Zentrale Speichermedien sind aber nicht Festplatten, sondern 400 Magnetbänder à 400 Gigabyte. "Das Band ist relativ einfach und dadurch preiswerter und sicherer", begründet Altenhöner diese Entscheidung.

Damit sich in diesen Datenmengen zielgerichtet Dokumente auffinden lassen, muss jede Datei zuvor von einem Bibliothekar mit Schlagworten versehen werden, die dann – getrennt von den technischen Daten – in einer eigenen Metadatei gespeichert werden. "Wir wollen künftig aber auch verstärkt in die Volltextsuche reingehen", kündigt Altenhöner an.

Irgendwann – wenn die wichtigsten Daten eingelesen und anderweitig gesichert sind – bekommen dann auch die alten Heimcomputer ihre verdiente Ruhe in einer Sammlervitrine. Kopal sei schließlich, so Altenhöner, "ein erklärter Schritt gegen die Bibliothek als Hardware-Museum". (bsc)