Analyse: KI als Ende des Software-Engineerings? Wohl kaum!
Der KI-Assistent Devin kann eigenständig Softwareprojekte umsetzen, stößt aber bald an seine Grenzen, meint Lars Röwekamp.
- Lars Röwekamp
Mitte März stellte das amerikanische Start-up Cognition den KI-Assistenten Devin vor. Er soll beliebige Programmiervorhaben auf Basis einiger weniger natürlichsprachiger Instruktionen automatisiert umsetzen können. Anders als bei den bisherigen KI-basierten Ansätzen zur Codegenerierung wie Microsoft Copilot beschränkt sich Devin dabei nicht darauf, einzelne Codeblöcke zu generieren oder zu optimieren, sondern er setzt gleich ganze Softwareprojekte um. Laut Cognition wird Devin die Art und Weise, wie Softwareentwickler zukünftig ihre Arbeit erledigen, radikal verändern. Die im Rahmen der Ankündigung zum Beleg gezeigten Beispiele sind beeindruckend. Doch das Feedback in der Praxis ist gemischt.
Und auch der auf einem Subset der im SWE-Benchmark hinterlegten Codierungsprobleme erreichte Score von 14 Prozent lässt einen großen Sprung in der KI-basierten Software-Generierung vermuten. Zum Vergleich die bisher führenden Ergebnisse: Claude 2 kommt auf 4,8 Prozent), Llama auf 3,9 Prozent und GPT-4 auf 1,5 Prozent.
Die Reaktionen auf die Fähigkeiten von Devin in der Community sind allerdings gemischt: Während Aravind Srinivas, CEO von Perplexity AI, schreibt, dass der autonome KI-Coder "die Schwelle" der menschlichen Fähigkeiten überschritten zu haben scheint, bezeichnet Evan You, ein in Singapur ansässiger Entwickler, den KI-Assistenten als "ziemlich unzureichend". Er fügte hinzu, dass ein Entwickler, der seine Aufgaben nur zu 14 Prozent der Zeit korrekt erledigt, eher eine "Belastung" als eine "Bereicherung" darstellt.
Wie aber sind die Fähigkeiten von Devin nun tatsächlich zu bewerten? Droht Software-Engineers das Ende?
Begleiter statt Ersatz
Die gute Nachricht vorweg: Selbst Cognition sieht in Devin eher einen Begleiter oder Kollegen als einen vollwertigen Ersatz für einen Softwareentwickler. "Devin ist ein unermüdlicher, fähiger Teamkollege, der gleichermaßen bereit ist, an Ihrer Seite zu arbeiten oder eigenständig Aufgaben zu erledigen, die Sie überprüfen können", schreibt Cognition in einem Blogbeitrag. "Mit Devin können sich Software-Engineers auf interessantere Probleme konzentrieren, und Entwicklerteams können ehrgeizigere Ziele anstreben."
Um die Möglichkeiten und Grenzen von Devin realistisch bewerten zu können, ist es wichtig zu verstehen, wie ein solches System unter der Haube funktioniert. Da bisher noch keine Details zur genauen Funktionsweise von Devin veröffentlicht wurden, orientieren sich die folgenden Ausführungen an den verschiedenen Demos des Cognition-Blogs.
Ein Blick hinter die Kulissen
Auf Basis einer gegebenen Aufgabe, beispielsweise eines Performance-Vergleichs für den Einsatz eines konkreten LLM (Large Language Model) bei unterschiedlichen Providern, erstellt Devin zunächst einen Plan mit den notwendigen Schritten zur Realisierung des Projektvorhabens. Je detaillierter der menschliche Auftraggeber die Anforderung formuliert, desto zielgerichteter ist der Plan.
Das System setzt den Plan anschließend mit unterschiedlichen KI-Agenten und Tools um. Dazu startet Devin eine sogenannte Agent-Loop, die so lange läuft, bis sie die Anfrage zufriedenstellend beantwortet. Innerhalb der Loop kommt es in jedem Schritt zu einer Kombination aus schlussfolgerndem Denken (Reasoning) und daraus resultierendem Handeln (Acting). Beide Verfahren für sich genommen sind im Umfeld von LLMs schon seit längerem bekannt und etabliert. Der Trick bei Systemen wie Devin ist, die beiden Verfahren in Form von ReAct-Agents zu kombinieren und dabei die gesammelten Erkenntnisse der vorherigen Schritte als Entscheidungsgrundlage für den jeweils folgenden Schritt und die damit verbundene Aktion zu verwenden.
Am 24. und 25. April 2024 findet in Köln die Minds Mastering Machines statt. Die von iX und dpunkt.verlag ausgerichtete Fachkonferenz jenseits des KI-Hypes richtet sich an Data Scientists, Data Engineers und Developer, die Machine-Learning-Projekte in die Realität umsetzen.
Das Programm der Konferenz bietet an zwei Tagen gut 30 Vorträge in drei Tracks. Lars Röwekamp, der Autor dieses Artikels, hält einen Vortrag zu dem Spagat zwischen Bias und Fairness.
Am zweiten Konferenztag wird es zudem eine Panel-Diskussion zu den Auswirkungen des AI Act geben.
Das dafür notwendige Gedächtnis der Agenten lässt sich per RAG-System (Retrieval Augmented Generation) bereitstellen. Je nach Aufgabe wird aus dem RAG-System das für den nächsten Schritt notwendige Code- oder Informations-Fragment herausgesucht und an das LLM übergeben. Dieser Kniff sorgt dafür, dass die Fragmente klein bleiben, um die Limitierungen der Kontextgrößen auszuhebeln. Das wiederum ermöglicht es dem System, komplexe Aufgaben zu erledigen, die aus mehreren Tausend Schritten und entsprechend vielen Entscheidungen und Aktionen bestehen können.
Interessant ist übrigens, dass die Prompting-UI der Devin-Workbench nicht nur dazu dient, die initiale Aufgabe zu stellen, sondern auch zur anschließenden Mensch-Maschinen-Interaktion während der Abarbeitung. Mithilfe dieses "Human in the Loop"-Agenten ist es zum Beispiel möglich, Devin Feedback zu getroffenen Entscheidungen und den daraus resultierenden Aktionen zu geben, die Prioritäten der Aufgaben dynamisch anzupassen oder die Aufgabenliste nach Bedarf zu überarbeiten.
Devin bietet aus Sicht der angewendeten KI-Methoden also nichts wirklich Neues, sondern kombiniert lediglich geschickt bereits Vorhandenes. Das soll die Leistung des unstrittig begnadeten Teams von Cognition auf keinen Fall schmälern. Schließlich haben sie in Summe immerhin zehn Goldmedaillen bei der berüchtigt schwierigen internationalen Informatik-Olympiade gewonnen.
Realistisch betrachtet stößt Devin aber trotz aller in den vergangenen zwei Wochen aufgekommenen Euphorie und der Prophezeiung, dass nun endlich das Zeitalter der Artificial General Intelligence (AGI) angebrochen sei, an seine Grenzen.