Eine Frage des Formats

Die Digitalisierung birgt Tücken – nicht nur in Tabellenform.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 2 Min.

Dass das vielzitierte Zeitalter der Digitalisierung seine Fallstricke hat, zeigt sich in so mancherlei Gestalt. Jüngst in Form eines Artikels von Mark Ziemann, Yotam Eren, und Assam El-Osta. Im Open Access Journal Genome Biology erklären sie, dass rund 20 Prozent der Artikel in führenden Fachzeitschriften der Genom-Forschung, die Daten aus Gendatenbanken nutzen, Fehler aufweisen – sie entstehen durch die automatisierte Übertragung in Excel-Tabellen, wenn die Formate nicht angepasst werden.

Das Problem lässt sich erahnen, wenn man sich die Gen-Bezeichnung anschaut, mit denen die Genforscher arbeiten. Beispielsweise, SEPT2 (Septin 2) und MARCH1 (Membrane-Associated Ring Finger (C3HC4) 1). Nutzen die Wissenschaftler zur Darstellung ihrer Ergebnisse Excel mit Standard-Einstellungen, so werden diese Gen-Bezeichnungen automatisch in ein Datum verwandelt, also "2-Sep" (2. September) und "1-Mar" (1. März). Andere Werte, so genannte "RIKEN" Identifiers, werden zu Gleitkommazahlen umgewandelt. Diese verfälschten Daten wandern unkorrigiert in die Anhänge von Forschungsarbeiten und werden weiterhin von anderen Wissenschaftlern übernommen. Dass diese offenbar ungeprüft Exceldaten weiterverbreiten, ist zwar schlimm genug. Erschreckender ist aber eigentlich, dass das Problem seit 2004 bekannt ist.

Mich erinnert das Konvertierungsproblem an einen anderen Fall vor ein paar Jahren. Damals machten Medienberichte darauf aufmerksam, dass Xerox-Geräte Zahlen in Dokumenten verfälschten. Schuld war die Scan-Software, die bei bestimmten Komprimierungs- und Auflösungs-Einstellungen ähnlich aussehende Scan-Sektionen mit den eigenen Vorlagen verglich und so etwa Zahlen "verwechselte". Aus einer 66 konnte damit eine 86 werden. Aufgefallen war das dem Wissenschaftler David Kriesel von der Universität Bonn. Wahrscheinlich über Jahre hinweg hatten die Xerox-Geräte auf diese Weise Scans durchgeführt – ohne dass es Nutzern oder der Herstellerfirma auffiel. Letztlich wollte Xerox ein Patch entwickeln, um die Lücke zu schließen. Ein Warnhinweis, dass es bei geringer Scanauflösung zu Übertragungsfehlern kommen kann, wurde integriert.

Einen Weg zur Lösung des Excel-Problems geben die Wissenschaftler indes nicht vor. Vielmehr wollten sie, auf das Problem aufmerksam machen. Ein Hinweis an die Excel-Anbieter von Microsoft wäre sicherlich auch hilfreich gewesen. Welchen Schluss ziehen wir daraus? Es bleibt ungewiss, wie viele falsche Zahlenkolonnen etwa in den Datenbanken bei Finanz- oder Katasterämtern schlummern. Der Digitalisierungs- und Konvertierungs-Teufel dürfte auch hier im angewandten Format stecken. (jle)