Die Zukunft der Archive: Ein Gedächtnis fürs Internet und Quellcode

Seite 2: Die Zeitlichkeit des Web

Inhaltsverzeichnis

Das prominenteste Werkzeug zur Suche im Webarchiv ist die Wayback Machine. Ausgehend von einer gegebenen URL versammelt sie alle im Archiv verfügbaren Snapshots. Auf diese Weise lässt sich etwa die Geschichte von heise.de gründlich studieren. Die URLs der mittels Wayback Machine aufgerufene Snapshots haben grundsätzlich diese Struktur: https:/web.archive.org/web/[Zeitstempel]/[URL].

heise online in der Wayback Machine (7 Bilder)

Die Übersicht aller gespeicherten Snapshots von heise.de

Die Wayback Machine öffnet historische Webseiten im jeweils aktuell verwendeten Browser. Das ist dann ein Problem, wenn die Webseiten veraltende Technologien wie Flash oder eingebettetes Java verwenden. Nebenbei bemerkt: Der nicht zum Internet Archive gehörende Webrecorder bietet angemeldeten Nutzern die interessante Möglichkeit, aufgerufene Webseiten einschließlich des dabei verwendeten Browsers aufzuzeichnen.

Der für das Internet Archive tätige Softwareentwickler Helge Holzmann machte darauf aufmerksam, dass Webarchive dem Netz eine Zeitdimension hinzufügen. Ein gewöhnliches Browsen ruft immer aktuelle Zustände des Web auf. Das komplette Web stellt so gesehen die Umwelt einer bestimmten Webseite dar. Die Nutzung eines Webarchives hat etwas von einer Zeitreise, die sogar schrittweise vorwärts und rückwärts ablaufen kann: Wenn Sie einen Link auf einer archivierten Webseite anklicken, verweist dieser auf einen weiteren archivierten Inhalt. In den seltensten Fällen besitzt dieser einen identischen Timestamp. Es wird dann jeweils der zeitlich nächstgelegenen Snapshot aufgerufen.

Diese Zeitlichkeit kann bei Suchen in Webarchiven insbesondere dann Schwierigkeiten aufwerfen, wenn der Suchbegriff auf Seiten auftaucht, die besonders häufig gespeichert wurden. Eine Suche kann unter diesen Umständen hunderte von sehr ähnlichen Seiten liefern – ein Rankingverfahren für die Relevanz muss her.

In seinem Konferenzbeitrag stellte Holzmann Werkzeuge zur Arbeit mit Webarchiven vor, an deren Entwicklung er beteiligt war.

Ein Rankingverfahren stellt das von Holzmann vorgestellte Tool Tempas aus dem Alexandria Projekt bereit. Die erste Version von Tempas verwendete Daten der Social Bookmarking Seite Delicious. Version zwei nutzt Webgraphen zur Bewertung. Das adressiert zugleich ein weiteres Problem der Webarchivsuche: Wer nicht weiß, dass etwa die primäre Webpräsenz von Angela Merkel mehrmals umgezogen ist, findet bei einer Suche in der Wayback Machine nach www.angela-merkel.de relevante Inhalte unter Umständen nicht. Tempas erkennt Webseiten, die gesuchte Entitäten repräsentieren, und erleichtert hier die Suche.

Ein weiteres Werkzeug aus dem Alexandria Projekt ist ArchiveSpark, ein Big Data Processing Tool speziell für Webarchive. ArchiveSpark widmet sich dem Problem, dass die Archive oft eine Größe von mehreren Petabyte haben, so dass eine effiziente Suche direkt auf den Daten kaum möglich ist. Stattdessen operiert das Tool auf leichtgewichtigen CDX-Dateien, die lediglich Metainformationen enthalten.

Auf der Frankfurter Konferenz stellte Stefano Zacchiroli die Arbeit der Initiative Software Heritage vor. Deren Ziel ist nichts Geringeres als "allen Quellcode, der jemals geschrieben wurde zu sammeln, zu konservieren und zu teilen".

Die Motivation dieses gewaltigen Vorhabens ist die von Zacchiroli vertretene Auffassung, dass ein rapide wachsender Teil des Menschheitswissens in Software und den zugehörigen Quellcodes verkörpert ist. Versionskontrollsysteme bieten sogar die Möglichkeit, die Evolution des so bezeichneten Wissens nachzuvollziehen.

Das Archiv von Software Heritage umfasst aktuell rund 5 Milliarden Quellcodedateien von rund 20 Millionen Autoren. Mittels der Suchfunktion finden Sie zum Beispiel den Code des Egoshooters Quake III.

Bei aktuellen Open Source Projekten ist eine ergiebige und automatisierte Datenernte über das Mitschneiden von Diensten wie GitHub und GitLab gut möglich. Die Sicherung von Quellen proprietärer und historischer Anwendungen stellt eine ungleich größere Herausforderung dar.