Excel wandelt Genbezeichnungen in Datumsangaben um: Problem größer als gedacht

Laut einer Analyse wurden zuletzt 30 Prozent aller Excel-Anhänge von wissenschaftlichen Arbeiten mit Bezug zu Genetik von der Tabellenkalkulation verfälscht.

In Pocket speichern vorlesen Druckansicht 749 Kommentare lesen

(Bild: gopixa/Shutterstock.com)

Lesezeit: 3 Min.

Das Problem der von Excel unbemerkt umgewandelten Bezeichnungen von Genen in wissenschaftlichen Veröffentlichungen ist noch größer als bislang angenommen. Das hat ein Team um Mandhri Abeysooriya von der Deakin University in Australien herausgefunden. Fast jede dritte wissenschaftliche Veröffentlichung mit einer Excel-Liste von Genen im Anhang wies demnach solche Fehler auf, vorher war die Rede von etwa 20 Prozent. Nachdem das Problem bereits seit Jahren bekannt sei, habe sich auch keine Verbesserung gezeigt, warnen die Forscherinnen und der Forscher. Erst vor einem Jahr hatte das für die Benennung von menschlichen Genen zuständige Komitee der Human Genome Organisation Dutzende Namen geändert, um Abhilfe zu schaffen.

Der nun an der Studie beteiligte Mark Ziemann hatte bereits vor fünf Jahren auf das Problem aufmerksam gemacht. Es geht darum, dass Microsofts Tabellenkalkulation Excel bestimmte alphanumerische Bezeichnungen für Gene automatisch und ohne Hinweis in Datumsangaben umwandelt. Nachdem Microsoft nicht reagiert hatte und sich keine andere Lösung abgezeichnet hatte, hatte das HUGO Gene Nomenclature Committee (HGNC) im vergangenen Jahr mehrere Dutzend Gene offiziell umbenannt. Seitdem heißt etwa das Gen MARCH1 jetzt MARCHF1 ("Membrane associated ring-CH-type finger 1"), aus SEPT1 wurde SEPTIN1 ("Septin 1"). In einer englischsprachigen Excel-Tabelle wurden daraus "1-Mar" oder "1-Sep". In deutschen Versionen lässt sich das Verhalten etwa mit "MÄRZ1" nachvollziehen.

Um zu quantifizieren, ob die Aufmerksamkeit für das Problem die Fehlerzahl verringern konnte, hat Abeysooriya mit ihren Kolleginnen und Ziemann mehr als 11.000 wissenschaftliche Veröffentlichungen zu Genetik-Themen mit Excel-Anhängen analysiert. Die sind zwischen 2016 und 2020 in Fachmagazinen erschienen, erläutern sie. Fast jede dritte Tabelle hat demnach solche Fehler enthalten, 2016 hatte er eine Fehlerrate von etwa 20 Prozent vorgefunden. Das Team erkennt an, dass die Namensänderung in der Zwischenzeit das Problem verringert haben dürfte. Es werde dadurch aber nicht verschwinden, unter anderem, weil es dabei nur um Gene des Menschen, von Mäusen und Ratten gegangen sei. Gene von anderen Tieren könnten weiterhin solche Umwandlungen auslösen. Außerdem seien mögliche Probleme in anderssprachigen Excel-Tabellen nicht angegangen worden.

Das Forschungsteam nimmt die Verantwortlichen für die Software zwar nicht aus der Verantwortung, erwarten von Microsoft aber wohl ebenfalls keine Reaktion mehr. Stattdessen geben sie den Forschern und Forscherinnen selbst Empfehlungen für mögliche Gegenmaßnahmen. So sei Excel sowieso nicht für diese Arbeit gedacht, hier würden sich etwa geskriptete Analysen in Python oder R anbieten. Dafür müsste zwar eine Programmiersprache gelernt werden, das würde sich aber auf lange Sicht noch auszahlen. Wenn aber wirklich eine Tabellenkalkulation genutzt werden müsste, dann empfehlen sie LibreOffice, da das Problem dort nicht auftrete. Und wenn tatsächlich nicht auf Excel verzichtet werden könnte, dann müsse man bei der Einbeziehung der Daten besonders umsichtig vorgehen.

(mho)