WTF

Kein Scheiß: Open Source Code mit Schimpfwörtern ist besser

Endlich hat die Developer-Welt Gewissheit: Ja, mit Vulgärsprache durchsetzter Open-Source-Code der Sprache C ist tendenziell besser.

In Pocket speichern vorlesen Druckansicht 220 Kommentare lesen
Künstlerische Darstellung: Aus dem Mund eines Menschen fließen Buchstaben

lassedesignen/Shutterstock.com

(Bild: Shutterstock)

Lesezeit: 3 Min.

Die Qualität von Softwarecode der Programmiersprache C ist tendenziell besser, wenn im Code selbst und/oder in den Kommentaren Schimpfwörter der englischen Sprache enthalten sind. Der Unterschied ist zumindest bei Open-Source-Code statistisch signifikant. Zu diesem Ergebnis gelangt Jan Strehmel mit seiner Bachelor-Arbeit am Institut für Theoretische Informatik des KIT (Karlsruher Institut für Technologie).

Der Wissenschaftler hat tausende Github-Repositories mit in der Programmiersprache C geschriebenem Open-Source-Code untersucht und mit einer online erstellten Liste mit über 300 Schimpfwörtern der englischen Sprachen abgeglichen. Er nutzte schließlich 3.800 Repositories mit Schimpfwörtern – sie konnten in den Kommentaren, im Code selbst (beispielsweise als Bezeichnungen für Variable) oder in beiden Teilen enthalten sein. Als Kontrollgruppe dienten 7.600 Open-Source-Repositories mit C-Code, die keines der gelisteten Pejorativa enthalten.

Nun mag es in vielen Fällen Ansichtssache sein, was "besserer" Code ist. Für die vorliegende Bachelorarbeit setzte Strehmel auf die Befolgung allgemeiner Qualitätsstandards als Indikator. Er analysierte die Code-Konvolute mit und ohne Schimpfwörtern mit der Software Softwipe unter Ausschluss von Compilation-Warnungen. Softwipe überprüft die Qualität von C und C++ Programmcode mithilfe statischer wie dynamischer Code-Analyse-Module, darunter den Clang Address Sanitiser und Lizard. Softwipe überprüft, ob sich der Programmcode an allgemeine Qualitätsstandards hält, und vergibt dann eine Bewertung von 0 (geringe Konformität) bis 10 (gute Konformität).

Das Ergebnis: Jene 7.600 Repositories, die keines der über 300 gelisteten Schimpfwörter aufweisen, erhielten median 5,41 Punkte (Konfidenzintervall 5,38-5,45 bei 99% Konfidenzniveau). Die 3.800 Repositories mit englischen Kraftausdrücken kamen auf 5,87 Punkte (5,81-5,93). Besonders auffallend ist die Häufung der Schimpfwort-durchsetzten Codes mit rech hoher Bewertung von sieben bis acht Punkten. Um auszuschließen, dass es einzelne, fleißige Lästermäuler gibt, die besonders gut programmieren können, hat Strehmel maximal zwei Repositories eines Autors in die Untersuchung einfließen lassen.

Warum Schimpfwort-Code besser ist, hat die Studie nicht zu ergründen gesucht. Denn Strehmel ist eigentlich davon ausgegangen, dass er keinen signifikanten Unterschied finden würde. Jetzt kann er zu den Ursachen nur spekulieren: Vielleicht ist der Einsatz von Kraftausdrücken Ausweis einer besonders emotionalen Beziehung des Programmierers zu seinem Open-Source-Code und seiner inhärenten Komplexität, stellt Strehmel eine Hypothese auf. Das könnte dazu führen, dass sich der Codeautor mehr Mühe mit seinem "Baby" gibt.

Das Ergebnis kann nicht umgedreht werden, warnt der Autor: Der Einsatz pejorativer Ausdrücke führt nicht automatisch zu besserer Codequalität. Allerdings sage eine 2017 veröffentlichte psychologische Studie, dass Fluchen am Arbeitsplatz Stress reduziere. Weniger Stress könnte bessere Konzentration bedeuten, was wiederum besseren Code zeitigen könnte.

Gleichzeitig sei nicht auszuschließen, dass die gemessenen Unterschiede völlig andere Ursachen als den Einsatz englischer Schimpfwörter haben. Ob das Studienergebnis auch bei in anderen Programmiersprachen geschriebenem Sourcecode hält, möchte Strehmel ebenfalls nicht mutmaßen. Andere Forscher sind eingeladen, ihren wissenschaftlichen Beitrag an der Schnittstelle von Informatik und Malediktologie zu leisten.

(ds)