IBM veröffentlicht Testdaten für KI-gestützte Softwaremodernisierung

Umfangreich und divers: IBMs Project CodeNet liefert Testdaten für die Entwicklung künstlicher Intelligenzen für die Softwaremodernisierung.

4

(Bild: Gerd Altmann, gemeinfrei)

12.05.2021, 17:42 Uhr

Lesezeit: 2 Min.

Developer

Von

Robert Lippert

Rund 14 Millionen Codebeispiele und über 500 Millionen Zeilen Quellcode zu 55 unterschiedlichen Programmiersprachen – mit Project CodeNet hat IBM jetzt ein umfangreiches Set an Testdaten für die Entwicklung künstlicher Intelligenzen für die Softwareentwicklung und -pflege veröffentlicht. Es soll die Grundlage schaffen für automatisierte Code-Korrekturen und Code-Übersetzungen und damit die KI-gestützte Modernisierung komplexer, monolithischer Anwendungen erleichtern. Insbesondere sind in dem Set Daten für populäre Sprachen wie C, C++, Java und Python enthalten.

Als Demonstration für die Leistungsfähigkeit des Datensets berufen sich die Forscher bei IBM auf ein nicht näher benanntes Referenzprojekt, in dem sie einen auf ein Jahr ausgelegten Migrationsprozess mithilfe des KI-Stacks aus CodeNet in nur vier Wochen umsetzen konnten. Dabei wurde eine Legacy-Applikation in über 25 Cloud-native Microservices zerlegt.

Videos by heise

Programmiersprachen schwer zu übersetzen

In einem Blogbeitrag gehen die Wissenschaftler näher auf die Herausforderung ein, dass Programmiersprachen sich nicht ohne Weiteres regelbasiert übersetzen ließen. Gerade in großen Codebasen erschließe sich der Kontext einzelner Statements erst über mehrere Bibliotheken hinweg. Mit bestehender Technologie ließen sich dabei nur bis zu 60 Prozent eines Programms übersetzen; mit ihrem KI-Stack aus CodeNet versprechen die Forscher an dieser Stelle eine deutliche Verbesserung.

Neben reinen Codebeispielen liefert IBM mit CodeNet auch diverse Metadaten und Annotationen, von Codegröße über Speicherverbrauch bis hin zu CPU-Laufzeiten, was darauf aufbauenden KIs eine Unterscheidung zwischen Akzeptanz- und Fehlerkriterien erleichtern soll.

Das ImageNet der Softwaremodernisierung?

Nach Einschätzung von IBM könne CodeNet sich langfristig für die Entwicklung künstlicher Intelligenzen ähnlich erfolgreich erweisen, wie ImageNet es im Bereich des maschinellen Sehens vorgemacht hat. Die Praxis wird zeigen, ob CodeNet dabei auch eine vergleichbare Fehlerquote aufweist – erst jüngst hat eine Studie zweier Wissenschaftler des MIT zusammen mit einem Amazon-Mitarbeiter die Zuverlässigkeit von Machine-Learning-Datensätzen untersucht. In dem für die Bildklassifikation häufig verwendeten ImageNet-Datensatz hat die Prüfung eine Fehlerquote von 5,83 Prozent ausgemacht.

Das CodeNet-Datenset steht auf GitHub unter der freien Apache-Lizenz zur Verfügung. Begleitend finden sich hier auch Tools unter anderem für die statistische Auswertung oder die Übersetzung zwischen beliebten Datenformaten.

(map)