KI-Assistenten helfen Entwicklern, die Qualität ihres Codes zu verbessern

Mit KI-Unterstützung geschriebener Code besteht laut einer GitHub-Studie mehr Unit-Tests, und Reviewer empfinden ihn als qualitativ hochwertiger.

12

(Bild: erstellt mit Dall-E durch iX)

21.11.2024, 08:53 Uhr

Lesezeit: 2 Min.

Developer

Von

Wolf Hosbach

Seit zwei Jahren gibt es Copilot, den KI-Coding-Assistenten von GitHub, was der Hersteller zum Anlass genommen hat, eine aufwendige Studie zum Thema Codequalität durchzuführen. Sie zeigt, dass Code, der mit KI-Hilfe erstellt wurde, mehr Unit-Tests passiert und weniger Fehler aufweist. Reviewer haben ihn zudem als lesbarer und zuverlässiger bewertet.

GitHub hat 202 Python-Entwicklern mit mindestens fünf Jahren Berufserfahrung die Aufgabe gegeben, einen API-Endpunkt für einen Webserver zu schreiben, konkret ein Bewertungssystem für Restaurants. 104 von ihnen durften GitHub Copilot verwenden, 98 gar keinen KI-Assistenten. Die Tester schleusten alle Beispiele durch zehn Unit-Tests, um die korrekte Funktionalität zu prüfen, und das Ergebnis fiel eindeutig zugunsten von KI-Hilfe aus: 60,8 Prozent aller Programme bestehen alle zehn Tests mit Copilot, nur 39,2 Prozent ohne KI-Hilfe.

Infografik Unit-Tests — Programme, die mit Hilfe von KI geschrieben wurden, bestehen deutlich häufiger alle zehn Unit-Tests.

(Bild: GitHub)

25 ausgewählte Entwickler, deren Code alle zehn Tests bestanden hatte, sollten anschließend blinde, anonymisierte Reviews der Programme anfertigen, wobei jedes Programm dabei insgesamt zehnmal geprüft wurde. Fehler bedeuteten in diesem Schritt nicht mehr Funktions-, sondern qualitative Mängel, die Konsistenz oder Lesbarkeit betreffend: inkonsistente Benennung, unklare Identifier, zu lange Zeilen, zu verschachtelte Schleifen, fehlende Kommentare, wiederholte Ausdrücke (don’t repeat yourself, DRY) oder unsaubere Funktionsaufteilung.

Auch hier schlägt sich die KI gut, jedoch nicht ganz so eindeutig. Im Schnitt fanden die Reviewer 4,63 Fehler bei Programmen mit KI-Hilfe und 5,35 Fehler bei solchen ohne. Auch die Zahl der Codezeilen pro Fehler war ohne KI-Hilfe größer: 18,2 Zeilen zu 16 Zeilen. Das widerlegt ältere Studien, die insbesondere aufgeblähten Code und eine Verletzung des DRY-Prinzips befürchteten. Andere aktuelle Studien stützen die Annahme, dass KI die Qualität verbessert.

Infografik fehlerhafte Code-Zeilen — Auch bei der Anzahl der fehlerhaften Codezeilen schneiden die KI-unterstützten Programme besser ab.

(Bild: GitHub)

Außerdem sollten die Reviewer weichere Aussagen dazu machen, wie lesbar, zuverlässig, wartbar und prägnant der Code sich zeigte. Hier ergibt sich ein Vorteil zwischen 3 und 5 Prozent für den Copilot, wobei die Studie nicht ganz klarmacht, wie die Werte zustande gekommen sind.

Die Studie hat ferner einen Blick auf die Commits der Probanden geworfen, die mit KI-Hilfe häufiger und kleiner ausfielen.

Als Resümee schlägt die Studie vor: "Unsere Hypothese ist, weil Entwickler weniger Zeit benötigen, um den Code funktional zu machen, ermöglicht es ihnen, mehr auf das Verfeinern der Qualität zu fokussieren."

(who)