Googles Bibliothek steckt voller Fehler

"Moby Dick: or the White Wall" ist noch einer der unterhaltsameren Fehler, die Google bei der Digitalisierung und Katalogisierung von Büchern unterlaufen.

In Pocket speichern vorlesen Druckansicht 60 Kommentare lesen
Lesezeit: 2 Min.
Von
  • Christian Kirsch

Während in den USA Googles Einigung mit Verlegern und Autoren über die Digitalisierung ihrer Werke zur Verhandlung ansteht und die EU noch berät, wie sie sich dazu stellt, nimmt die Aufmerksamkeit für die von dem Internetdienstleister bereitgestellten Inhalte und Metadaten zu. So weist der Professor Geoffrey Nunberg von der Berkeley School of Information in seinem Blog auf fehlerhafte Metadaten in der Buchsammlung hin.

Laut Google Books eines der frühesten Bücher zum Thema "Internet"

Beispielhaft führt er an, dass Google 1899 als Erscheinungsjahr vieler Werke angibt, die erst deutlich später herauskamen – etwa Raymond Chandlers "Killer in the Rain" (Chandler kam 1888 auf die Welt) und "La condition humaine" von dem 1901 geborenen André Malraux. Fehler fand er auch bei der Verschlagwortung. So gibt Google über 1000 Fundstellen für "Internet" in Werken an, die vor 1950 erschienen sind. Unter anderem gehört dazu ein 1742 erschienenes Buch von Cesare Calino aus der Bayerischen Staatsbibliothek (s. Abbildung). Weitere Beispiele betreffen zahlreiche Werke von Charles Dickens, Rudyard Kipling und Greta Garbo, die jeweils vor deren Geburt erschienen sein sollen.

In einem Gespräch mit Nunberg habe Dan Clancy, der "Chefingenieur" für Google Books, die Verantwortung für die Fehler auf die Bibliotheken geschoben. Dies hält Nunberg jedoch für ein Hirngespinst ("woolgathering"): In einigen Fällen gebe es zwar systematische Fehler, die auf einzelne Bibliotheken zurückgingen, etwa das massenhaft verwendete Erscheinungsjahr 1899 bei Werken in portugiesischer Sprache. Die meisten Fehler seien jedoch Googles eigene Schuld. Falsche Erscheinungsdaten etwa lägen daran, dass die Firma sie per OCR (Optical Character Recognition) automatisch bestimme. Absurde Kategorisierungen seien bedingt durch Googles "fine algorithmic hand", die mit einem "Icon" automatisch das Stichwort "Religion" assoziiere.

Siehe dazu auch:

  • Ausführlicher Artikel von Geoffrey Nunberg im Chronicle of Higher Education

(ck)