Die Zukunft der Archive: Die hohen Hürden bei der Datenarchivierung

Seite 3: "Wir brauchen Mut zu unfertigen Projekten"

Inhaltsverzeichnis

Interview mit Ina Blümel vom Open Science Lab der Technischen Informationsbibliothek Hannover

heise online: Sie haben ursprünglich Architektur studiert, arbeiten aber nun in Bereichen wie Open Science und digitale Bibliotheken. Wie sind Sie auf diese Themen gestoßen?

Ina Blümel

(Bild: Ralf Rebmann, CC BY-SA 4.0 )

Ina Blümel: Ende der Neunziger habe ich angefangen, mich mit digitalen Repräsentationsformen von Architekturinformation zu befassen. Etwa mit Animationen, wo man mit virtuellen Kameras durch im Rechner entworfene Architekturen fahren kann. Da ging es nicht mehr um Strichstärken oder Papierwahl, sondern darum: Wie bekomme ich eine Datenmenge X mit einer Bandbreite Y hinreichend gut ausgeliefert, muss ich Abstriche im Detaillierungsgrad machen? Und es ging auch um die Frage, ob wir im Digitalen das Analoge nur kopieren oder ob wir schon in Informationseinheiten denken, die eine weitere digitale Verarbeitung möglich machen. Diese Diskussion gibt ja immer noch, wenn man zum Beispiel an PDF denkt, wo nur das Analoge nachgebaut und auf viele Möglichkeiten digitaler Formate verzichtet wird.

Schließlich habe ich der klassischen Architektur den Rücken gekehrt und mich verstärkt Fragen der Digitalisierung gewidmet. Beim Büro Digitales Bauen in Karlsruhe habe ich im Team mit Architekten, Ingenieuren und Informatikern gearbeitet. Wir haben versucht umzusetzen, was heute im Prinzip von jeder Building Information Modeling Software (BIM) geleistet wird. BIM-Werkzeuge bieten völlig neue Planungsmethoden: Weg von der 2D-Zeichnung mit Grundrissen, Schnitten und Ansichten, hin zum Planen in 3D mit Referenzobjekten wie Wänden, Fenstern, automatischen Auswertungen und so weiter.

Später kam ich an die Technische Informationsbibliothek in Hannover. Anlass war das Projekt Probado (prototypischer Betrieb allgemeiner Dokumente). Wir wollten Workflows entwickeln, die neben textbasierten Inhalten auch Dokumente wie Audiodateien oder eben 3D-Modelle integrieren können. Das waren zunächst ganz dumme Modelle, etwa Dreiecksmeshes. Da mussten wir die Informationen mühsam rausholen, etwa mit Textbausteinen beschreiben, was das Modell überhaupt darstellt. Das sollte möglichst maschinell geschehen, denn Millionen Modelle lassen sich nicht händisch erfassen. Die im Projekt entworfenen Interfaces sollten nicht nur die Suche per Strings, sondern auch ausgehend etwa von Zeichnungen oder einem Raumverbindungsgraphen bieten.

Ein Schwerpunkt ihrer Dissertation ist das Thema Linked Open Data. Was hat es damit auf sich?

Bis vor ca. zehn Jahren hatten sich Bibliotheken damit begnügt, für jedes Item, ob digital oder nicht, ein sogenanntes Recordset anzulegen, also Autor, Titel, Stichworte zum Inhalt usw. Im Analogen und bei Zugriffsformen wie Zettelkästen reicht das aus, aber im Digitalen kann ich ja auch explorativ, also ungerichtet durch Autoren, Werke, Begriffe navigieren. Dazu brauche ich eine andere Repräsentation als Key-Value-Paare. Linked Data basiert auf Information, die in Subjekt-Prädikat-Objekt-Aussagen umgesetzt sind, und benutzt persistente Identifikatoren für die beschriebenen Dinge. Wir benutzen das heute alle intuitiv, meine Kinder kennen gar nichts anderes: Sie bekommen etwa von Google zu einer gesuchten Person mehr Infos in strukturierter Form angezeigt, z.B. die zugehörigen Werke. Sie können dann auf ein Werk klicken, und bekommen Orte eingeblendet, die für dieses Werk relevant sind, und so weiter.

Wie läuft die Integration eines 3D-Architekturmodells in ein digitales Archiv ab, was ist dabei zu beachten?

Was man sich erst einmal vor Augen halten muss: 3D-Modelle liegen in einer Vielzahl von sehr unterschiedlichen Formaten vor. Und ich habe nicht nur Dreiecks- und Polygonmodelle, sondern vielleicht auch Punktwolken oder ganze BIM-Modelle. Dann muss ich schauen, welche Informationen (wie Geometrie, Materialeigenschaften, textuelle Annotationen) enthalten sind, und, ganz wichtig, inwiefern unterstützen frei verfügbare Tools die Formate?

Ich lasse jetzt mal das Thema Langzeitarchivierung außen vor und geh gleich zu den Erschließungs- und Verarbeitungsschritten: Dem Dateiformat kommt eine entscheidende Bedeutung für alle weiteren Schritte der Verarbeitung zu, sofern diese den unmittelbaren Inhalt des Modells betreffen. Hierzu zählen die Anzeige des Modells in einer geeigneten Webanwendung und die Möglichkeit der Auslieferung von 3D-druckbaren Versionen. Wir müssen sicherstellen, dass die anvisierten 3D-Formate in geeigneter Form importiert und gegebenenfalls konvertiert werden können, um eine zukunftsfähige Nutzung zu gewährleisten.

Aus einem 3D-Scan extrahierte Informationen wie Raumaufteilung und Raumbeziehungen.

(Bild: Ina Blümel et al, CC-BY-NC 3.0 )

Um ein die Suche in Modellbeständen zu ermöglichen, sind die Daten hinsichtlich ihrer inhaltstragenden Merkmale zu analysieren. Ich muss also erst einmal Indexdaten erzeugen. Das können geometrische Eigenschaften in Form von Vektoren sein. Oder es sind statistische Deskriptoren, mit denen man 3D-Modelle auf spezifische Eigenschaften überprüfen kann; bei 3D-Modellen sind dies zum Beispiel Informationen über Farbverteilung auf der Modelloberfläche. Oder ich extrahiere strukturelle Beschreibungen, repräsentiert in Form eines Graphen. Aus diesen Indexdaten lassen sich inhaltlich-technische und quantifizierbaren Attribute erzeugen, zum Beispiel die Größe der Raumflächen. Erst diese Indexdaten werden im Information Retrieval durch Algorithmen miteinander verglichen, um Ähnlichkeiten zu finden.

Inhaltsbasierte Erschließungsmethoden nutzen häufig maschinelle Lernverfahren. Die arbeiten beispielsweise auf Form- oder Strukturmerkmalen, um eine automatische Kategorisierung von 3D-Modellen zu ermöglichen. Derart getaggte Modelle kann man dann wunderbar durchsuchen. Und man kann dann auch 2D, Video, Handschriften etc. in einem Index haben und über all dem suchen. Genau dahin wollen wir ja mit den digitalen Archiven. Neben maschinellen Auswertungen sehe ich eine wachsende Bedeutung von Crowdsourcing.

Können Sie Nutzungsmöglichkeiten benennen, die Sie mittels digitaler Archive im Bereich Digital Heritage vorbereiten?

Wir wollen die Objekte zugänglich machen, die Archive sichtbar machen für jedermann. Unsere Auffassung ist: Kulturerbe gehört jedem. Wenn etwas gut präsentiert wird, dann lädt es zur Nachnutzung ein, dann wird mit den Daten vielleicht was neues Kreatives geschaffen. Zum Beispiel in Initiativen wie Coding da Vinci. Da kommen Bestände aus dem GLAM-Bereich, also Galleries, Libraries, Archives, Museums zusammen mit Hackern und Codern, die mit diesen Daten kreativ arbeiten und unkonventionelle Anwendungen erstellen.

Digitalisate lassen sich durch das Einblenden von Kontextinformationen viel besser vermitteln und sie bieten einen besseren Zugang. Semantische Segmentierung und Verknüpfung von Text, Bild und 3D-Modell bietet da spannende Möglichkeiten. Wenn ich ganze Bestände von verschiedenen Einrichtungen digitalisiert habe und Objekte zusammen zeigen kann, dann macht das Zusammenhänge viel klarer, als wenn ich mühsam von Ort zu Ort gehen muss. Man kann auch in den Archiven und Museen einiges mehr machen, etwa hybride Ausstellungen, die virtuelle und reale Objekte zusammen zeigen.

Die Möglichkeiten wissenschaftlicher Anwendungen sind enorm vielfältig. Wissenschaftler können ihre Diskussionen direkt am Modell und seinen Bestandteilen mittels Annotationen andocken. Das setzt voraus, dass Daten und Metadaten offen bereitstehen. Wir wollen weg von den Silos virtueller Forschungsumgebungen, wo Personen außerhalb des akademischen Elfenbeinturms draußen bleiben. Sinnvoll ist eine aussagenbasierte Beschreibung der Modellinhalte insbesondere für Kulturerbe aufbauend auf eventbasierten Referenzmodelle wie CIDOC CRM.

Was sind aus Ihrer Sicht die größten Herausforderungen bei der Erstellung und Pflege von Digitalen Archiven? Was wünschen Sie sich?

Wir sollten den Mut haben zu unfertigen Produkten, also agiler arbeiten. Damit können wir auch zu den Nutzern gehen und sie immer wieder um Feedback bitten, und das dann aufgreifen. Wir tendieren leider im bibliothekarischen, aber auch im Kultur- und Wissenschaftsbereich dazu, lange an ausgefeilten Produkten zu basteln. Wenn wir damit fertig sind, dann ist der Hype schon vorüber und die Leute interessieren sich schon wieder für was anderes.

Partizipation lässt sich in Wissenschaft und Kultur digital phantastisch umsetzen. Warum machen wir so wenig Gebrauch davon? Warum sind die Angebote immer noch so monodirektional? Man kann an Projekten wie Wikipedia die Motivationen studieren, die Leute antreibt, an einem digitalen Allgemeingut mitzuarbeiten. Die Dynamik, mit der neuerdings Wikidata wächst, das strukturierte Informationen zu Personen, Werken, Orten, etc. vorhält ist beeindruckend.

Welche Rolle spielen Unternehmen, öffentliche Institutionen und die förderpolitischen Entscheidungen?

Die Gestaltung des digitalen Wandels wird momentan stark einzelnen Unternehmen überlassen, da sollten öffentlich geförderte Institutionen als vertrauenswürdige Instanzen stärker mitmischen. Allein auf dem Gebiet offener, gemeinsamer Standards, Software, Daten usw. bleibt viel zu tun. Vielfach sind Insellösungen die Regel. Im Bereich Open Data kommt in Deutschland Bewegung in die Sache mit der der Ausschreibung zu nationalen Forschungsdateninfrastrukturen 2019. Aber es braucht auch Industriepartnerschaften. Und wir brauchen Rechtssicherheit. Aktuell gibt es ja dieses scheußliche BGH-Urteil zum Reiss-Engelhorn Museum.

Es gab mal eine Zeitlang viel Fördergeld für Digitalisierung, das wurde vornehmlich für 2D genutzt. Nun, da Technologien wie 3D Scanning immer massentauglicher sind, und sich mit Deep Learning Verfahren ganz neue Möglichkeiten auftun fehlt das Geld. Ich setze ja einiges an Hoffnung in die Bewerbung des FET Flagship-Projekts Time Machine um Fördergelder bei der EU. In dem Projekt haben sich um die 200 europäische Institutionen zusammengeschlossen mit dem Ziel, neue Technologien für das Scannen, Analysieren, Zugreifen, Bewahren und Kommunizieren von kulturellem Erbe zu entwickeln.

Aber dann bleibt immer noch die Frage, wer soll die Daten denn dauerhaft archivieren? Und um welche Daten geht es eigentlich? Wer weiß schon, was die Historiker von morgen eigentlich interessieren wird? Und rein ressourcentechnisch gedacht, gibt es DAS zentrale Archiv, das so gut ausgestattet ist, ausfallsicher usw., das alle Informationen manipulations- und fälschungssicher aufbewahrt, quasi als Leviathan aller Archiv-Einrichtungen? Oder gibt es andere Lösungen, und wir landen vielleicht wirklich irgendwann bei einem dezentralen digitalen Archiv oder Museum, so wie es gerade Ansätze im Bereich Blockchain und Peer2Peer-Anwendungen gibt? (mho)