KI-Assistenten und LLMs – was taugt der Code?

An Aufgaben aus dem Entwickleralltag sollen GitHub Copilot, ChatGPT und Llama 3 zeigen, was sie können. Mit ihrer Hilfe lässt sich sehr schnell sehr viel Code erzeugen – doch die erhöhte Produktivität bleibt oft eine Illusion.

Von Michael Koppmann und Dr. Alexander Schatten

In welchem Maß sich KI-Assistenten und große Sprachmodelle (LLMs) im Prozess der Softwareentwicklung nützlich machen, hängt davon ab, wie gut ihr Output ist. Das klingt trivial, ist es aber nicht. Denn das zugrunde liegende Problem ist: Was ist Codequalität, wie lässt sie sich messen und wie schneiden LLMs und KI-Assistenten in dieser Hinsicht ab? Außerdem gilt es zu beobachten, wie sich die Qualität des erzeugten Codes über die Zeit verändert. Um also den Einsatz von LLMs und KI in realen Projekten zuverlässig zu gestalten, braucht es regelmäßige und idealerweise standardisierte Tests, um Veränderungen der Codequalität zu beurteilen (siehe auch „Wozu das Programmieren auf Prompt-Ebene führt“ ab Seite 44).

Auf absehbare Zeit werden KI-Systeme Hand in Hand mit menschlichen Programmierern und Technikern arbeiten. Deshalb muss sich Codequalität nicht nur an abstrakten Kriterien, sondern am Menschen orientieren. LLMs müssen Code ausgeben, den menschliche Programmierer verstehen und vor allem warten können. Dies ist vergleichbar mit anderen Einsatzgebieten der KI, wie etwa autonom fahrenden Autos oder Fahrassistenzsystemen. Diese müssen ebenso davon ausgehen, dass in ihrem Kontext menschliche Fahrer und KI-gesteuerte Autos gemeinsam unterwegs sind. Nur wenn KI-Systeme die Programmierung vollständig übernehmen, würde dieses Kriterium keine Rolle mehr spielen.