Online in die Vergangenheit

Die Tage vor und nach den US-Präsidentschaftswahlen waren eine selten nervenaufreibende Zeit für Brewster Kahle, den geistigen Vater des Internet-Archivs.

21.12.2004, 04:02 Uhr

Lesezeit: 15 Min.

MIT Technology Review

Von

Steffan Heuer

Die Tage vor und nach den US-Präsidentschaftswahlen waren eine selten nervenaufreibende Zeit für Brewster Kahle, den geistigen Vater des Internet-Archivs. An diesem Morgen marschiert er von einem Zimmer im Hauptquartier seines virtuellen Archivs ins andere, telefoniert, gestikuliert und diskutiert in hastigen Stakkatosätzen mit seinen Mitarbeitern, wie man die Auslastung der Server von San Francisco bis Alexandria besser austarieren kann, damit Besucher seiner Archiv-Webseite weiterhin das neueste Anti-Bush-Video des Rappers Eminem ansehen können.

"Es ist wie verhext", schüttelt Kahle den Kopf. "Wenn man in der wirklichen Welt etwas verschenken will, muss man selten selbst drauflegen und kann die Ausgaben sogar noch von der Steuer absetzen. Nicht aber im Internet. Wenn ich da etwas gratis verteile, das alle wollen, kann ich schnell dabei bankrott gehen, weil die Zugangskosten ins Astronomische steigen."

Bandbreite, für die sich Internet-Anbieter teuer bezahlen lassen, ist nur eine von vielen Sorgen, die Kahles Internet-Archiv plagen. Der Informatiker mit MIT-Abschluss, der seit 1996 am grenzenlosen Online-Archiv werkelt, verfolgt utopisch hoch gesteckte Ziele, was die unbefristete und bedingungslose Speicherung von Texten, Bildern, Musik, Filmen und anderen multimedialen Kunstwerken angeht. "Universalen Zugang zu allem menschlichen Wissen schaffen" lautet seine Devise, die er weltweit auf Konferenzen verkündet.

Technisch ließe sich der Traum verwirklichen. Wirtschaftlich sei er auch machbar und nur eine Frage der Prioritäten, rechnet Kahle vor. Ob indes die politischen, gesellschaftlichen und rechtlichen Rahmenbedingungen stimmen, ist eine ungleich schwierigere Frage. Kahle jedenfalls glaubt an die Idee, alles Wissen im Netz zu archivieren und zugänglich zu machen. "Das sind wir unseren Kindern schuldig", ereifert sich der 44-Jährige. Anfangs musste er sein eigenes Geld in das Projekt steckten, heute verwaltet er ein Budget von fünf Millionen Dollar im Jahr, das sich vor allem aus großen US-Stiftungen und privaten Spenden speist.

Sein Internet-Archiv, in dem durchschnittlich 150000 Nutzer am Tag gratis stöbern, koordiniert Kahle von einer kleinen Pionierzeit-Villa aus, am Fuß der Golden-Gate-Brücke. Es bildet die Avantgarde einer verwirrenden Vielzahl von Online-Archiven, die sich oft noch nicht einmal darüber im Klaren sind, was gespeichert werden soll, wie die Inhalte am besten erfasst und aufbewahrt werden und wer anschließend Zugang bekommt. Kahles Stiftung etwa sammelt seit sieben Jahren Webseiten als Momentaufnahmen und macht sie seit 2001 als "The Wayback Machine" öffentlich zugänglich.

Seine automatischen Index-Programme, die durch das Web kriechen, haben bislang mehr als 40 Milliarden individuelle Seiten gespeichert. Daneben bewahrt das Internet-Archiv die digitalen Versionen von Büchern, Filmen, Liedern und Bildern. Jeden Monat, schätzt Kahle, wächst sein Bestand um rund 25 Terabyte - was ungefähr dem gesamten Bestand der Staatsbibliothek der Vereinigten Staaten, der Library of Congress, entspricht, so dieser digitalisiert und als einfacher Text abgespeichert würde.

Beim Erfassen der Unterlagen bedient sich Kahle automatischer Scanroboter, die mit mechanischen Armen selbstständig die Seiten umblättern. Und er lässt Minibusse mit Satellitenschüsseln auf dem Dach durch Indien, Uganda und die USA rollen, um zu demonstrieren, wie man digital archivierte Bücher auch auf dem flachen Land herunterladen und ausdrucken kann. Auf den hunderten von Servern, die überall auf der Welt verteilt stehen, sind inzwischen ein Petabyte oder eine Billiarde Bytes gespeichert.

Moderne Speichermedien, schnelle Leitungen und immer bessere Suchmaschinen machen es möglich, dieser Datenflut Herr zu werden. "Dank des Internets wird der Zugriff auf Informationen immer besser und schneller, während die Kosten für Speichermedien immer weiter sinken", sagt Peter Lyman von der Schule für Informations-Management an der Universität Berkeley. Das erlaubt Büchereien, Museen, Stiftungen, Unternehmen und Regierungsbehörden in aller Welt, immer mehr Daten zu horten und nach Brauchbarem zu durchsieben. Lyman ist einer der Autoren der wegweisenden Studie "How Much Information?", die in den Jahren 2000 und 2003 den Versuch wagte, das gesamte menschliche Wissen in Bits und Bytes zu quantifizieren.

Wer sich Lymans Zahlen ansieht, merkt rasch, dass Kahles Versprechen des universalen Zugangs etwas hoch gegriffen ist. Im Jahr 2002 etwa produzierte die Menschheit auf Papier, Film, magnetischen und optischen Speichermedien rund fünf Exabyte neue Daten. Neun Zehntel davon wurden auf Festplatten abgelegt. Fünf Exabyte - eine Zahl mit 18 Nullen - entspricht 800 Megabyte pro Kopf der Weltbevölkerung, rechnet Lyman vor, oder zehn Meter aneinander gereihter Buchrücken pro Erdbewohner. Seit 1999, dem Zeitpunkt der ersten Erhebung für die Berkeley-Studie, wuchs das Volumen gespeicherter Informationen um jährlich 30 Prozent.

Das für alle zugängliche Internet macht dabei nach Lymans Schätzung lediglich einen Bruchteil der Datenflut aus, nämlich 170 Terabyte. "Dieses Zahl bezieht sich allerdings nur auf die statischen Webseiten, die für jeden Benutzer gleich aussehen", erläutert der Professor. Rechnet man all jene Seiten hinzu, die aufgrund einer individuellen Anfrage dynamisch erzeugt werden, erhält man das so genannte "tiefe Web" - und das ist geschätzte 92000 Terabyte groß. Hinzu kommen Milliarden von E-Mails und Instant-Messaging-Nachrichten sowie Telefongespräche, die immer häufiger über das Internet übertragen werden.

Wie sichert man solch einen gigantischen Ozean digitaler Daten für die Nachwelt? Die durchschnittliche Lebensdauer einer Webseite beträgt etwa 44 Tage, die von offiziellen Seiten ungefähr vier Monate. Automatische Archivierungs-Software macht nur sporadisch die Runde durchs Web und bringt eine Momentaufnahme zurück, die bereits veraltet ist, wenn sie online verfügbar ist.

"In traditionellen Archiven treffen Menschen Entscheidungen, welche Werke aufbewahrt werden sollen. Im Internet ist das eine mathematische Entscheidung", erläutert Lyman. Alle großen Suchmaschinen haben sich mittlerweile zu Archiven entwickelt. Google etwa hat jüngst seinen Bestand archivierter Internetseiten von vier auf acht Milliarden nach oben korrigiert. "Diese Unternehmen hüten die Kriterien für die Auswahl ihrer gespeicherten Webseiten wie ein Geheimnis", sagt Lyman. Sicher ist nur: Alle so und so viel Tage zieht ein Roboter Bilanz. Die Entscheidungen der Maschine mögen objektiver sein als die eines Kurators am Königshof, der unliebsame Bestände aus dem Verkehr zieht - aber eine umfassende Abbildung der Wirklichkeit ergeben sie ebenso wenig.

Auch beim Format herrscht Verwirrung: Jede Webseite verweist im Schnitt auf 15 andere Seiten und enthält fünf Objekte wie Bilder, Grafiken, Videos, Tondateien, Werbung. Wer eine Seite archiviert, muss beim zu speichernden Umfeld irgendwo eine Grenze ziehen und kappt damit möglicherweise verständniswichtigen Kontext. Ebenso wichtig sind die Metadaten - also Informationen über Herkunft und Authentizität der Quelle. Sonst kann es passieren, dass spätere Forscher Webseiten voller Verschwörungstheorien über die Anschläge vom 11. September finden und sie mit offiziellen Berichten der verschiedenen Untersuchungskommissionen und seriösen Analysen gleichsetzen.

Doch selbst wenn sich heute jede Seite samt Hintergrundinformationen archivieren ließe, heißt das noch lange nicht, dass zukünftige Generationen in der Lage sein werden, diese Dokumente aufzurufen. Browser etwa gibt es erst seit Anfang der 90er Jahre - und schon jetzt schwankt die Darstellung je nachdem, ob man eine Seite mit einer alten Version von Netscape, Microsofts Internet Explorer oder Apples Safari aufruft. Ganz zu schweigen von der Gefahr, dass sich veraltete Formate überhaupt nicht mehr öffnen lassen, weil sie inkompatibel sind oder sich die Speichermedien zersetzt haben, auf die der Server zugreifen will. "Die Hardware und Software, um ein Webobjekt authentisch darzustellen, muss bewahrt werden", gibt Lyman zu bedenken.

Lyman und Kahle sind deshalb Berater eines bereits im Jahr 2000 vom US-Kongress angestoßenen Vorhabens, ein Nationales Programm für Digitale Informationsinfrastruktur und Aufbewahrung (NDIIPP) zu entwickeln. Unter der Leitung der Library of Congress arbeiten renommierte US-Universitäten an Machbarkeitsstudien zum richtigen Umgang mit digitalen Materialien. Acht Förderprogramme mit einem Gesamtvolumen von 15 Millionen Dollar vergab Washington diesen Herbst. Sie reichen von der Entwicklung neuer Archivierungswerkzeuge für offizielle Dateien der Nasa oder verschiedener Regierungskommissionen über die Speicherung digitaler Fernsehprogramme bis zur Aufbewahrung von Dokumenten aus der schnelllebigen Dotcom-Ära.

Finanziell ist die Archivierung großer Teile des Internets im Internet durchaus machbar. "Nehmen wir nur den Bestand der Library of Congress: rund 26 Millionen Objekte", rechnet Brewster Kahle vor. "Der reine Text in einem Buch ergibt ungefähr ein Megabyte Daten, also geht es um 26 Terabyte. Das lässt sich auf Linux-Servern für rund 60000 Dollar zugänglich machen und der Welt zum Stöbern anbieten." Wollte man die Bücher scannen und grafisch aufbereiten, würde es zehn Dollar pro Band kosten. "Also beliefe sich die Rechnung auf 260 Millionen Dollar", sagt Kahle. "Das sind Peanuts."

Ähnliche Kalkulationen hat Kahle für Filme, Schallplatten und CDs angestellt, aufbauend auf Schätzungen des renommierten Computerwissenschaftlers Raj Redd von der Carnegie Mellon Universität in Pittsburgh. Redd schätzt, dass in der gesamten Menschheitsgeschichte seit den Zeiten der sumerischen Keilschrift rund 100 Millionen Bücher veröffentlicht wurden. Dazu kommen zwei bis drei Millionen Musikaufnahmen vom 78er Format über LPs bis zu CDs, rund 100000 Kinofilme sowie weitere zwei Millionen Filme, die zu Bildungs- oder Werbezwecken aufgenommen wurden. Selbst die jährliche Ausbeute aller in den USA ausgestrahlten Fernsehsendungen beläuft sich auf technisch handhabbare 3,6 Millionen Stunden, die nach Lymans Schätzung maximal 8200 Terabyte Speicherplatz benötigen.

Die große Hürde bei all den Daten ist das Urheberrecht. Kahles Internet-Archiv, das bereits 1971 gestartete Archiv für elektronische Bücher namens "Gutenberg-Projekt" und das von Carnegie Mellon aus der Taufe gehobene "Million Book Project" sind sehr wohl in der Lage, Bücher zu scannen oder alte Hollywood-Streifen zu digitalisieren und ins Netz zu stellen. Aber angesichts der von Land zu Land unterschiedlichen Copyright-Bestimmungen sind die Zugangsbeschränkungen - auch für legitime Nutzung digitaler Quellen - streng.

Der Klassiker "Vom Winde verweht" aus dem Jahr 1936 beispielsweise ist in den USA dank stetig verlängerter Urheberschutz-Gesetze bis 2031 geschützt. In Australien lief der Schutz hingegen im Jahr 1999 aus, 50 Jahre nach dem Tod der Autorin Margaret Mitchell. Als der australische Ableger des Gutenberg-Projektes das Werk online verfügbar machte, kam sofort eine Abmahnung von Mitchells Nachlassverwalter, da auch Webnutzer in Amerika die australische Seite aufrufen können. Die Datei verschwand aus dem Archiv.

Ebenso verspricht das Jahr 2005 für Musikliebhaber interessant zu werden, da in der Europäischen Union dann Musik aus den 50er und 60er Jahren in den "öffentlichen Raum" übergeht, alle Urheberrechts-Ansprüche privater Eigentümer also erlöschen. In den USA bleiben Elvis und Co indes auf 95 Jahre hinaus geschützt. Unterlassungsklagen, teure Vergleiche und Druck aus den USA auf ihre Handelspartner sind bereits programmiert. Das US-Gesetz zum "Urheberrechts-Schutz im 21. Jahrhundert", von Juristen wie dem Stanford-Professor Lawrence Lessig als Würgegriff der Unterhaltungsmultis kritisiert, wurde "ohne jeglichen Gedanken an die Bedürfnisse der Archivierung" verabschiedet, bemängelt Peter Lyman.

Internet-Archive gegen Bezahlung oder für bestimmte Nutzergruppen bieten einen möglichen Ausweg aus dem Copyright-Dilemma. Ein Beispiel ist die California Digital Library (CDL), die rund 200000 Studenten und 160000 Universitätsmitarbeitern Zugang zu den elektronischen Ausgaben wissenschaftlicher Fachzeitschriften, Datenbanken und anderen Forschungsmaterialien bietet. Ein kleiner Teil der digitalisierten Werke wird über das "Online Archive of California" der breiten Öffentlichkeit verfügbar gemacht, in erster Linie verstaubte Primärquellen-Sammlungen. Der aktuelle, wertvolle Rest dagegen ist ebenso wie das Online-Archiv JSTOR, das bisher rund 450 Fachzeitschriften aus 86 Ländern umfasst, nur für jene Akademiker zugänglich, deren Institutionen entsprechende Gebühren bezahlen.

Um breiteren Nutzerschichten einen Archivzugang zu verschaffen, kommen eher gewinnorientierte Unternehmen wie Amazon oder Google in Frage, die ihren Service von der reinen Suche nach Buchtiteln und Web-Adressen immer mehr auf Archivdienste ausweiten. Amazon etwa hat nicht nur Brewster Kahles Suchmaschine Alexa Internet gekauft und integriert, sondern im September 2004 eine eigene Suchmaschine namens A9 gestartet. A9 kann Anfragen unter anderem mit Daten aus der Filmdatenbank IMDb, die ebenfalls Amazon gehört, sowie Textpassagen und Seitenabbildungen aus Amazons Buchkatalog beantworten, in dem bereits tausende von Werken im Volltext erfasst sind. Außerdem merkt sich A9 den Suchpfad für jeden Nutzer als zentral gespeichertes Recherche-Tagebuch.

Solche kommerziellen Datenmakler kümmern sich nicht nur um Aufbau und Erhalt einer modernen Informationsinfrastruktur. Sie können auch Urheberrechte aushandeln und abrechnen - ähnlich wie es heute Apple mit seinem Musikladen iTunes tut. Die Übergänge vom reinen Online-Laden zum gebührenpflichtigen Netz-Archiv seien fließend, sagt Berkeley-Professor Lyman. "Google kann sein Archiv-Know-how über Anzeigen finanzieren, Amazon über Buchverkäufe. Die Archivfunktion dient in beiden Fällen als Marketing-Werkzeug." Kombiniert mit Gratis-Archiven wie Brewster Kahles Projekt sowie Regierungsarchiven wie dem Cyber Cemetery, der tausende von Webseiten nicht mehr existenter US-Behörden aufbewahrt, ergibt sich so ein umfangreicher Flickenteppich, der sich parallel zum Internet ständig vergrößert.

Die länderübergreifende Nutzung ist allerdings immer noch mit vielen rechtlichen Problemen verbunden. Ein Beispiel für ein funktionierendes internationales Projekt ist die im April 2004 eröffnete Kunstdatenbank ARTstor, von der Andrew Mellon Stiftung als digitales Archiv für Kunstwerke ins Leben gerufen. Bis 2006 soll ihr Bestand von derzeit etwa 300000 auf eine halbe Million Bilder anwachsen. Die Stiftung Preußischer Kulturbesitz in Berlin ist der erste deutsche Teilnehmer. Seit diesem Herbst werden rund 7000 hochauflösende Bilder von Objekten aus dem Pergamon Museum, dem Alten Museum und dem Völkerkundemuseum in die Sammlung eingespeist. Zugang haben bisher jedoch nur Schulen, Hochschulen und Museen in den USA - je nach Größe der Institution für 600 bis 40000 Dollar Beitrittsgebühr und noch einmal 500 bis 20000 Dollar Jahresbeitrag.

Und eines werden selbst die besten Internet-Archive nie bieten: den zufälligen Fund, der allein auf Sinneseindrücken beruht. Als etwa der amerikanische Historiker Paul Duguid vergangenes Jahr Portugals Weinhandel im 18. Jahrhundert erforschte, wollte er die Dokumente wegen seiner Stauballergie eigentlich gescannt aufrufen. "Heute bin ich froh, dass ich im Archiv in Lissabon saß", erinnert sich der Wissenschaftler. Dort fiel ihm nämlich ein Sitznachbar ins Auge, der an jedem der alten Briefe roch, bevor er ihn las. Warum, wollte Duguid wissen. Ein Historiker-Kollege klärte ihn auf, dass Städte, in denen damals die Cholera wütete, ihre ausgehende Post mit Essig desinfizierten. "Wenn also ein Brief dem Handelspartner in Frankreich fröhlich verkündet, alles gehe bestens, man solle die Ware nur schicken, ist ein kurzer Schnüffeltest ein guter Realitäts-Check", sagt Duguid. "Da kommt kein Online-Archiv mit."

(entnommen aus Technology Review Nr. 1/2005; das komplette Heft können Sie hier bestellen) (sma)