Die Zukunft der Archive: Ein Gedächtnis fürs Internet und Quellcode

Und das Netz vergisst doch: Die Lebensdauer einer Webseite beträgt im Schnitt 100 Tage, sagt der Gründer des Internet Archive.

38

(Bild: rawf8/Shutterstock.com)

27.12.2018, 08:53 Uhr

Lesezeit: 11 Min.

Von

Pit Noack

Tatsächlich ist das Internet allen anders lautenden Aussagen zum Trotz ziemlich vergesslich. Projekte wie das Internet Archive bemühen sich daher um langfristige Bewahrung und Bereitstellung. Das Thema Web-Archivierung bildete auch einen Schwerpunkt auf der Konferenz zur "Bewahrung digitalen kulturellen Erbes" an der Deutschen Nationalbibliothek in Frankfurt am Main Ende November.

Dissertationen und Katzenvideos

Der Begriff "kulturelles Erbe" wurde von den Konferenzteilnehmern mit gutem Recht sehr weit gefasst, im Prinzip gehört dazu jede Spur, die Menschen hinterlassen und meint damit alles, was potentiell von einer Generation auf die andere übertragbar ist. Das sind im Hinblick auf das Netz nicht nur Nachrichtenseiten, Dissertationen oder Lehrvideos, sondern eben auch Katzenvideos, Beiträge in Modelleisenbahnforen oder das "Techno Viking"-Meme in all seinen Varianten und Verästelungen.

In seinem Konferenzbeitrag machte der Historiker Peter Webster deutlich: Das Internet ist nicht sein eigenes Archiv. Er verwies dabei auf eine Studie der British Library, die anhand umfangreicher Stichproben belegte, dass nach 10 Jahren lediglich wenige Prozent der erfassten Webseiten unverändert unter der ursprünglich erfassten URL abrufbar waren.

Das 1996 gegründete und in San Francisco ansässige Internet Archive geht dieses Problem an. Mit aktuell 345 Milliarden Webseiten und einem Speichervolumen von bald 20 Petabytes ist es das umfangreichste Webarchiv weltweit. Daneben stellt das Archiv Bücher, Musik, Videos, Zeitschriften und sogar im Browser spielbare Games bereit.

Die rechtliche Grundlage der Arbeit des Internet Archive ist die in den USA gültige Regelung "Fair Use", die "bestimmte, nicht autorisierte Nutzungen von geschütztem Material zugesteht, sofern sie der öffentlichen Bildung und der Anregung geistiger Produktionen dienen". Diese Regelung gilt in Europa zum großen Bedauern vieler Kulturbewahrer nicht.

Spielarten der Datenernte

Eine vollständige Archivierung des Web ist schon angesichts der schieren Datenmenge, der fortwährenden Wandlung und dynamisch generierter Inhalte nicht machbar. Es stellt sich also die Frage: welche Auswahlmechanismen steuern die Datenernte?

Mehrmals im Jahr ernten sogenannte "wide crawls" ausgehend von einer umfangreichen "seed list" von Einstiegspunkten. Der kostenpflichtige Service Archive-It und "contract crawls" bieten zudem die Möglichkeit, definierte Ernten zu fahren. So sucht und sichert das Internet Archive für die Neuseeländische Nationalbibliothek regelmäßig alle auf .nz endende Domains sowie Seiten, die Texte in Maori enthalten.

Nicht zuletzt bietet ein "Save Page Now” Formular jedem Nutzer die Möglichkeit, einzelne Seiten zu speichern. Dieses Angebot sichert eine Demokratisierung der Webarchivierung. Es ist zudem für Wissenschaftlerinnen und Wissenschaftler von Nutzen, die eine Internetquelle wasserdicht zitieren möchten. Weiterhin tragen auf diesem Weg auch Bots dazu bei, verschiedene Interessen zu wahren und die gezielte Archivierung bestimmter Webseiten sicherzustellen.

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}

Die Zukunft der Archive: Ein Gedächtnis fürs Internet und Quellcode

Dissertationen und Katzenvideos

Spielarten der Datenernte

Spiele

1 Monat gratis lesen.Jetzt 1 Monat gratis lesen.

Das digitale Abo für IT und Technik.