Die Zukunft der Archive: Die hohen Hürden bei der Datenarchivierung

Seite 2: Ein Kontinuum technischer Zivilisation

Inhaltsverzeichnis

Im Hinblick auf das digitale kulturelle Erbe können wir uns auf keinen Zufall verlassen, absichtslose Überlieferung wird es hier nicht geben. Eine funktionierende Überlieferung ist unabdingbar geknüpft an das Fortbestehen einer Zivilisation, die Digitaltechnik beherrscht. Dieser vielleicht banale Gedanke gewinnt an Tiefe, wenn man sich die Paradoxie vor Augen führt, dass die heute entwickelten Tools zur Archivierung und Bereitstellung digitaler Artefakte selbst digitaler Natur sind. Hinzu kommt, dass die gesamte benötigte Infrastruktur digitaler Archivierung in einer technischen Umwelt operiert, die kontinuierlichem Wandel unterworfen ist und daher beständiger Pflege und Entwicklung bedarf, um in Funktion zu bleiben.

Wenn auch klassische Archive und Bibliotheken bereits Orte von Austausch und Wissensproduktion waren, erleben wir mit dem digitalen Wandel eine Dynamisierung dessen, was ein Archiv sein kann und sein sollte. Digitale Archive prozessieren fortlaufend die in ihnen gespeicherten Informationen, fortlaufend sind neue Tools zum Abruf und zur Verarbeitung der Daten in Entwicklung. Ein digitales Archiv, das seine Prozesse nicht beweglich hält und zukünftige Entwicklungen nicht adressiert, ist mittelfristig so gut wie tot.

Einige der eben abstrakt beschriebenen Herausforderungen demonstrierten zwei Konferenzteilnehmer äußerst plastisch an konkreten Beispielen. Dirk von Suchodoletz (Rechenzentrum der Universität Freiburg) stellte ein datenforensisches Projekt vor. Er zeigte, mit welchen Schwierigkeiten Forscher zu kämpfen haben, wenn sie sich mit digitalen Karteileichen konfrontiert sehen, die einen geordneten Archivierungsprozess verpasst haben.

Gegenstand der Bemühungen war ein Konvolut von 17 8-Zoll Disketten aus einem sportmedizinischen Forschungsprojekt der Achtzigerjahre. Zum Erstellungskontext aus Soft- und Hardware lagen keine Informationen vor, geschweige denn ein passender PC nebst Laufwerk und entsprechenden Treibern.

Ein originalverpacktes Laufwerk wurde per Ebay beschafft, zudem ein älterer PC mit Disketten-Controller. Ein aktiver Adapter vom US-Hersteller D Bit komplettierte das Setup, das mit einem Linux System und Tools wie BitCurator und Linux Disk Utilities bestückt wurde.

Erste Tests mit diesem Setup und sicherheitshalber einer unbeschriebenen Diskette fielen ernüchternd aus. Zwar regte sich das Laufwerk, aber essentielle Kommandos brachen mit Fehlermeldungen ab. Immerhin zeigte eine Messung per Oszilloskop direkt am Schreib- und Lesekopf des rotierenden Laufwerks ein ermutigend strukturreiches Signal auf den fraglichen Disketten.

Nach einigen weiteren erfolglosen Versuchen mit Catweasel und anderen Tools gelang dem Elektrotechniker Willibald Meyer vom Rechenzentrum der Durchbruch: Anhand von mit KryoFlux extrahierten Magnetisierungsmustern konnte er das tatsächliche Aufzeichnungsformat und die Struktur der Sektoren auf den Disketten identifizieren.

Schlussendlich konnten die auf den Disketten vorhandenen Textdateien gelesen werden. Die Entschlüsselung der Forschungsdaten hingegen stellte sich als ein unlösbares Problem heraus. Dieses Scheitern verweist auf ein verbreitetes Problem bei explizit für Forschungsprojekte entwickelten Anwendungen und Dateiformaten mit mangelhafter oder fehlender Dokumentation.

Rekonstruktion in Freiburg (7 Bilder)

Disketten aus einem Forschungsprojekt der Universität Freiburg
(Bild: Rechenzentrum Universität Freiburg)

Christian Keitel vom Landesarchiv Baden-Württemberg bot Einblicke in den Umgang staatlicher Archive mit dem Thema Digitalisierung. Außerdem nannte er einige konkrete Beispiele für schwierige Migrationsprojekte, etwa bei Datenbanken: "Wenn man etwa einen Komplex von 700 Tabellen bekommt, die zahlreiche Verknüpfungen aufweisen, und diesen in künftige Formate überführen will, weil man der Meinung ist, mit Oracle oder mit Db2 lässt sich die Langzeitarchivierung nicht so gut machen: Dann ahnt man, das Komplexität ein Problem ist. Nun sind diese Systeme nicht allein. Sie sind verknüpft mit vielen anderen Systemen, die ihrerseits auch gerne mal aus hunderten von Tabellen bestehen."

Damit nicht genug: Die Systeme tauschen Daten miteinander aus. Vorgaben wie die Gewerberegisterordnung definieren zudem, welche Behörden Abzüge unterschiedlicher Vollständigkeit bekommen. Diese Behörden wiederum verändern die Daten und vermischen und verknüpfen sie mit Daten aus anderen Quellen. In diesen Prozessen sind auch proprietäre Anwendungen verschaltet. "Spätestens jetzt hat die Angelegenheit einen Komplexitätsgrad erreicht, die eine Erhaltung in Gänze unmöglich macht. Wir müssen uns Fragen nach Bewertung und Auswahl stellen."

Einblicke ins Landesarchiv Baden-Württemberg (4 Bilder)

Tabellenverknüpfungen aus der Datenbank Eureka Fach
(Bild: Landesarchiv Baden-Württemberg)

Angesichts der von Keitel und von Suchodoletz präsentierten eindrücklichen Beispiele möchte man der Forderung von Peter Leinen (Deutsche Nationalbibliothek) zustimmen: "Wir sollten die gesamte Entwicklung unserer IT auf negative Folgen für die langfristige Bewahrung der Datenbestände prüfen."

Es wird deutlich, dass proprietäre Formate und Anwendungen ein kapitales Problem für die digitale Langzeitarchivierung darstellen – ein Gedanke, der Wasser auf die Mühlen all jener ist, die konsequenten Einsatz von Open Source im öffentlichen Dienst fordern.

Auf der Konferenz war allenthalben der Wunsch nach mehr Kooperation und Erfahrungsaustausch zwischen den Akteuren der Digitalen Langzeitarchivierung zu vernehmen. Im deutschen Sprachraum ist hier der Kooperationsverbund Nestor aktiv. Kooperation ist in der Tat angebracht, denn so fruchtbar die aktuelle Vielfalt an Bemühungen ist: Langfristig scheinen allgemeingültige Standards notwendig, etwa für Archivierungsprozesse, Dokumentation von Suchwerkzeugen und die Struktur von Metadaten.

In den weiteren Teilen dieser Serie wird es um Web- und Quellcodearchivierung, Computerspiele, Emulatoren und die funktionale Instandhaltung von historischer Hardware gehen.