Wenn Wissenschaftler Schwierigkeiten mit Excel haben

Bild: tp

Falsche Anwendung von Office-Software führt zu fehlerhaften Gen-Bezeichnungen und anderen Fehlern in wissenschaftlicher Forschung

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Ein im Journal Genome Biology publizierter Artikel von Mark Ziemann, Yotam Eren und Assam El-Osta wirft ein desaströses Bild auf die Fähigkeiten von Wissenschaftlern im Umgang mit Standard-Office-Software. Autoren aus dem Bereich der Genom-Forschung sind erschreckend oft nicht in der Lage, die automatische Zellformatierung Excels auf den von ihnen genutzten Datentyp anzupassen, eine Kenntnis, die mithin in jedem Excel-Einführungskurs vermittelt wird.

Die schludrige Verwendung der Standardeinstellungen führt dazu, dass Gen-Bezeichnungen in kalendarische Daten und Gleitkommazahlen verwandelt werden. Ziemann, Eren und El-Osta nennen als Beispiele die Gen-Bezeichnungen SEPT2 und MARCH1, die zu den Zeichenfolgen 2-Sep und 1-Mar transformiert wurden. Zudem wurden sogenannte RIKEN-Identifier, die in der Gen-Forschung Verwendung finden, in Gleitkommazahlen umgewandelt, etwa von 2310009E13 zu 2.31E+13. Dies ist vor allem problematisch, da die Informationen in den Excel-Dateien Verwendung in weiterer Forschung finden, so Ziemann, Eren und El-Osta: "supplementary files are an important resource in the genomics community that are frequently reused."

Die Datenbasis der Erhebung bildeten Datensupplements zu Artikeln, die zwischen 2005 und 2015 in 18 wissenschaftlichen Zeitschriften erschienen. Insgesamt wurden 3.597 publizierte Artikel ausgewertet, in 987 Datei-Supplements zu 704 Artikeln fanden sich Inkorrektheiten. Die Forscher stellten dabei ein positive Korrelation zwischen fehlerhaften Supplements und Höhe des Journal Impact Factors des publizierenden Journals fest. Dies mag erstaunen, da der Impact Factor zwar heftig umstritten ist, dessen ungeachtet aber oft als Indikator der Qualität eines Journals interpretiert wird. Die Forscher erklären diese Korrelation durch den Umstand, dass Artikel in High Impact Journals häufig umfangreichere Daten-Supplements aufweisen als Artikel in anderen Journalen.

Neben der hohen Quote an Artikeln mit unkorrekten Supplements von knapp 20% mag auch die Tatsache beunruhigen, dass in den letzten fünf Jahren die Fehler mit einer Rate von 15% per annum zunahmen - vor allem wenn man bedenkt, dass die Problematik bereits 2004 berichtet wird.

Überraschend zudem, dass die beschriebenen Transformationen in der Qualitätsprüfung der Journale unentdeckt blieben, obwohl viele wissenschaftliche Zeitschriften vorgeben soweit möglich begleitende Daten zu eingereichten Artikeln einem Peer Review zu unterziehen. Dies gilt auch für verschiedene Journale, in deren Supplements sich nun Fehler fanden, wie z.B. Genome Research.

Fehlerhafte Excel-Nutzung findet sich gleichsam unter Wissenschaftlern anderer Disziplinen: Die Publikation Growth in a Time of Debt von Carmen M. Reinhart und Kenneth S. Rogoff gilt gemeinhin als wissenschaftliche Legitimation der Austeritätspolitik und für drastische Kürzung von Staatsausgaben in verschuldeten Ländern. Eine Re-Analyse der Daten zum Paper deckte aber, neben anderen Merkwürdigkeiten, die eigentlich eine Neubewertung des Papers erforderten, einen simplen Excel-Fehler auf: An einer Stelle wurde - anders als beschrieben - nicht der Durchschnitt von zwanzig, sondern nur von fünfzehn Feldwerten berechnet.

Letztlich, so das Fazit von Ziemann, Eren und El-Osta, hilft nur der offene Zugang zu Forschungsdaten, um die Validität der in Artikeln beschriebenen Befunde prüfen zu können: "We recommend publishers allow open access to supplementary materials." Wohl ein guter Ratschlag, da die Überprüfung der Daten durch potentiell jeden der Kontrolle im Rahmen eines Peer Peview überlegen scheint.