KI-Programmierhilfe GitHub Copilot beim Abschreiben ertappt

Ein Professor für Computerwissenschaften erhält von Copilot eine auch in den Kommentaren sehr ähnliche Kopie seines Open-Source-Codes.

48

(Bild: Phonlamai Photo/Shutterstock.com)

18.10.2022, 11:49 Uhr

Lesezeit: 3 Min.

Developer

Von

Rainald Menge-Sonnentag

Auf Twitter hat Tim Davis, der als Professor für Informatik an der Texas A&M University tätig ist, ein Codesample gezeigt, das die KI-Programmierhilfe GitHub Copilot wohl nahezu identisch aus seinem Open-Source-Projekt übernommen hat. Der Code nutzt nicht nur dieselben Namen für Methoden und Variablen, sondern auch auffällig ähnliche Kommentare.

Die Reaktionen auf den Tweet befeuern weitgehend die Kritik an Copilot. Seit dem Start haben sich viele Entwicklerinnen und Entwickler sowie Organisationen wie die Free Software Foundation kritisch über das KI-System geäußert. Dabei geht es nicht nur um die Verletzung von Lizenzen, sondern auch darum, wie es die Open-Source-Community gefährde.

Videos by heise

Der KI-Assistent beim Programmieren

Die technische Preview von Copilot hat GitHub im Juni 2021 gestartet. Der Assistent basiert auf dem KI-System OpenAI Codex, das darauf ausgelegt ist, natürliche Sprache in Code zu überführen. Unter anderem reicht ein Kommentar, um eine vollständige, passende Funktion zu erzeugen. Nach einer einjährigen Test- und Betaphase hat GitHub im Juni 2022 Copilot offiziell freigegeben und bietet die Nutzung des Systems für 10 US-Dollar monatlich an.

Bereits zum Start der Testphase gab es Diskussionen, ob Copilot das Urheberrecht verletze. Das System bezieht sein Wissen aus zahlreichen offene zugänglichen Repositories, ohne dass GitHub die jeweiligen Verantwortlichen explizit fragt. Auf Twitter warfen User Copilot das Scrapen von Code vor.

Das von von Davis gezeigte aktuelle Beispiel dürfte diesen Vorwurf untermauern. Er zeigt in seinem Tweet den Originalcode zum Transponieren einer dünnbesetzten Matrix neben dem Code, den Copilot auf den Kommentar

// sparse matrix transpose

vorgeschlagen hat. Neben vielen Variablennamen stimmen auch die Texte in den Kommentaren weitgehend überein.

Die Ähnlichkeiten zwischen dem Original und dem Vorschlag von GitHub Copilot gehen bis in die Kommentare.

(Bild: Tim Davis (@DocSparse) auf Twitter)

Weitere Codeausschnitte, die Davis aus derselben Library für dünnbesetzte Matrizen auf Twitter gepostet hat, sind nicht ganz so nah am Original, bauen aber erkennbar darauf auf.

Kopf hinter Copilot: Ähnlich, aber anders

Der Architekt von GitHub Copilot Alex Graveley äußert sich auf einen Retweet mit dem Kommentar, dass der fragliche Code anders sei als das Beispiel – ähnlich, aber unterschiedlich. Wer eine Methode fände, automatisch einen Code als Derivat eines anderen zu identifizieren, möge sie patentieren lassen.

Auch wenn die Ähnlichkeiten mehr als auffällig sind, ist im konkreten Fall fraglich, ob tatsächlich eine Copyright-Verletzung vorliegt. Davis spricht zwar von Copyright und der LGPL-Lizenz, die auf Copyleft setzt, aber die Datei mit dem Code enthielt keinen direkten Lizenz- oder Copyright-Hinweis. Darüber hinaus findet sich in den Antworten zum Tweet der Kommentar, dass Copilot sich nicht einmal unbedingt beim Original bedient haben müsste, der vermutlich in ähnlicher Form in zig anderen Repositories auftauche. Dass auch Menschen sich des Konzepts von Copy und Paste bedienen, steht außer Frage.

Allerdings weisen einige Tweets auch auf eine weitere Problematik hin: Kann man Copilot vertrauen, dass ein derart komplexer Code zuverlässig und korrekt arbeitet? Wie sicher ist der Code? Eine Untersuchung, die zwei Professoren auf der Sicherheitskonferenz Black Hat 2022 vorgestellt haben, hat gezeigt, dass das KI-System nicht selten Schwachstellen in Codevorlagen übernimmt.

Eine Antwort weist auf eine mögliche Klage gegen GitHub Copilot hin. Eine eigene Website beschäftigt sich mit der Untersuchung der Funktionsweise des Systems und den damit verbundenen juristischen Problemen.

(rme)