Wie man Millionen von Büchern digitalisiert

Zwei große US-Buch-Scanning-Projekte zeigen, welcher Aufwand betrieben werden muss, um die Informationsflut aus Millionen von Bänden zu organisieren.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 7 Min.
Von
  • Kate Greene

Fünfzehn Monate nachdem Google ein Buch-Scanning-Projekt biblischen Ausmaßes angekündigt hat, verrät der Suchmaschinenbetreiber immer noch nicht, wie er die technischen Hauptprobleme des Projektes lösen will. Unklar ist zudem, wie weit der Anbieter inzwischen bei dem Vorhaben gekommen ist - immerhin geht es darum, unter anderem den gesamten Buchbestand von New York Public Library und Harvard University einzulesen und dann digital durchsuchbar zu machen.

Erfahrungen mit ähnlichen Projekten gibt es jedoch bereits: So läuft an der Carnegie Mellon University (CMU) in Pittsburgh seit rund sieben Jahren das "Million Book Project", bei dem eine Million Bände digitalisiert werden sollen. Der Leiter des Projektes, Computerwissenschaftler Raj Reddy, weiß zwar auch nicht, wie gut und wie weit Google inzwischen bei seinem Ansatz vorangekommen ist. Doch er kennt die Probleme, die die Suchmaschine angehen müsste.

Das Ziel der neuen "Google Book Search" ist es, Bücher, die bislang nicht über Google erreichbar sind, im Internet durchsuchbar zu machen. Das bedeutet, dass Hunderte Millionen Seiten, die zwischen den Buchdeckeln von geschätzten 18 Millionen Bänden stecken, physisch eingescannt werden müssen. Die Bücher sind in 430 verschiedenen Sprachen verfasst, die in den unterschiedlichsten Schriftarten vorliegen. Im Endergebnis sollen dann Volltextsuchen möglich werden; außerdem soll man Bücher wie in einer Bibliothek auch durchstöbern können. Daniel Clancy, der technische Direktor der "Google Book Search", wollte allerdings nicht kommentieren, wie weit die Suchmaschine inzwischen gekommen ist und welche genauen Geräte verwendet werden.

Beim CMU-Projekt sind jedoch ganz gewöhnliche Buchscanner im Einsatz, wie man sie im Laden kaufen kann. Das Gerät der Wahl: Der überall erhältliche Minolta PS 7000. Die CMU-Buchscanner stehen vor allem in China und Indien, insgesamt 40 Scan-Stationen wurden eingerichtet. Absprachen mit den örtlichen Behörden sorgen dafür, dass die Kosten bei dem Nonprofit-Projekt niedrig gehalten werden. Beim CMU-Setup müssen die Mitarbeiter jede einzelne Buchseite von Hand umblättern. Nach sieben Jahren wurden rund 600.000 Bücher, die meisten davon freie Werke ohne Urheberrechte, an die Scan-Stationen geschickt und digitalisiert. Jeden Tag kommen 100.000 Seiten dazu. In dieser Geschwindigkeit dürfte es noch weitere fünf Jahre dauern, bis das CMS-Projekt fertiggestellt ist.

Google verwendet hingegen eine selbst entwickelte Scan-Technik. Clancy will aber keine technischen Details zu der Hardware verraten; ebenso nicht, welche OCR-Einlesesoftware verwendet wird. Ebenfalls unklar ist die Scan-Geschwindigkeit, die die Scan-Stationen erreichen, die Google in der Nähe seiner Bibliothekspartner in Harvard, Stanford, Michigan, Oxford und New York eingerichtet hat.

Laut CMU-Mann Reddy eignet sich kommerzielle OCR-Software für das "Million Book Project" jedoch durchaus gut. Vereinzelte Probleme werden von den chinesischen Partnern des Projektes behoben, die dann Spezialsoftware schreiben, um ungewöhnliche Schriftarten und Kaligraphien zu deuten, die vor allem in alten Büchern stecken. Außerdem entwickeln CMU-Partner in Ägypten eine OCR-Software zum Erkennen von Arabisch. Reddy hält den Sektor für ein offenes Forschungsgebiet, an dem viele Länder teilnehmen.

Sobald die Bücher eingescannt wurden und ihre Texte zugänglich sind, müssen sie so organisiert werden, dass sie überhaupt gut durchsucht werden können. Ein Problem ist die unterschiedliche physische Qualität der Bücher, die zu Inkonsistenzen bei der Seitennummerierung führen kann. Manchmal fehlen ganze Seiten, manchmal sorgen Eselsohren dafür, dass falsche Seitenzahlen gescannt werden. Ist eine Seitenzahl erst einmal falsch, findet sich der Fehler womöglich im gesamten Werk wieder.

Das Problem wird beim CMU-Projekt gelöst, in dem die verwendete Software nicht von Seitenzahlen abhängt. Stattdessen werden so genannte strukturelle Metadaten verwendet, einzelne "Tags", die die Bedeutung von Informationen innerhalb eines Buches zusammenfassen. So können die Forscher dann Worte im Inhaltsverzeichnis mit den passenden Kapiteln verknüpfen. Zudem lassen sich Begriffe aus dem Index mit den richtigen Passagen vernetzen. Diese Verknüpfungen erfolgen allerdings derzeit noch von Hand - es gibt keine Software, die sie mit einer Genauigkeit von mehr als 90 Prozent setzen kann. Bei der Einhaltung dieser Techniken werden vernünftige Suchen im Text deutlich praktikabler.

Das Endziel der Google-Buchsuche sei es, eine Bibliotheksnutzung im Internet nachzubilden - inklusive dem Auffinden interessanter Zufallsfunde, wie Google-Mann Clancy sagt. So ließen sich ähnliche Bücher über Kategorien und Themen vernetzen. Das kann jedoch recht kompliziert werden, wenn beispielsweise Arbeiten von Virginia Woolf mit kritischen Betrachtungen, von ihr inspirierten Werken und anderen Autoren aus ihrer Ära verknüpft werden müssen. Clancy meint, dass die Entwicklung entsprechender Algorithmen zur Informationsorganisation viele Jahre dauern könnte.

CMU-Projektverantwortlicher Reddy setzt hingegen auf einen statistischen Ansatz. In unserem Virginia Woolf-Beispiel würden dabei typische Sätze der Autorin analysiert und Muster anhand der Satzstruktur, Satzlänge und Zeichensetzung erkannt. Diese Technik würde dann beispielsweise Werke von James Joyce mit Woolfs Arbeiten vernetzen, der zu ihren Einflüssen gehört. Außerdem könnte diese Technik gar einen von Woolf inspirierten unbekannten Autor offenlegen, den man sonst gar nicht enteckt hätte.

Gleichzeitig suchen die Forscher nach Methoden, um schneller innerhalb von Autoren, Büchern und Genres suchen zu können. Dabei kommt ein so genannter kollaborativer Filter zum Einsatz, wie ihn Amazon.com-Nutzer kennen: Aus den Interessen anderer Nutzer ergeben sich Vorschläge für den eigenen "Einkauf". Ein solcher Community-Ansatz wurde von Google bislang noch nicht angekündigt, wie Clancy bestätigt. Er könnte aber eine weitere Suchschicht ergänzen und insgesamt mehr Buzz für das Projekt generieren.

Geheimniskrämerei ist nichts Neues für Google. "Sie halten fast alles unter der Decke, was sie tun. Das ist bei Silicon Valley-Firmen typisch", meint CMU-Mann Reddy. Beim "Google Book Search"-Projekt wolle die Suchmaschine eine Lösung schaffen, die schließlich alle Bibliotheken nutzen könnten. Reddy selbst findet das Projekt sehr spannend und glaubt, dass es seine eigene Arbeit ergänzen könnte: "Ich bin mir sicher, dass Google eines Tages auch auf unsere Bücher zeigt."

Unterdessen muss sich Google noch mit ganz anderen, nichttechnischen Problemen beschäftigen: Unzufriedene Rechteinhaber haben den Anbieter verklagt. der US-Schriftstellerverband Author's Guild und mehrere Verlage glauben, dass Google mit seinem Projekt das Urheberrecht verletzt.

Doch die rechtlichen und technischen Hürden können genommen werden. Ist dies der Fall, würden digitalisierte physische Bücher womöglich gar die Milliarden von bestehenden Webseiten in Informationstiefe und Vielfalt übertrumpfen. Ein einziger Online-Katalog, in dem Millionen von Büchern dieser Welt stecken, könnte ein ganz neues Kapitel im Informationszeitalter aufschlagen.

Übersetzung: Ben Schwan. (wst)