KI-Training: Stack Overflow will Geld für Zugriff auf Inhalte verlangen

KI-Chatbots wie ChatGPT werden auch mit den Millionen Fragen und Antworten zur Softwareentwicklung auf Stack Overflow trainiert. Das soll bald Geld kosten.

In Pocket speichern vorlesen Druckansicht 20 Kommentare lesen
Chatgpt,Chat,With,Ai,Or,Artificial,Intelligence.,Young,Businessman,Chatting

(Bild: CHUAN CHUAN/Shutterstock.com)

Lesezeit: 2 Min.

Das Internetportal Stack Overflow will künftig Geld dafür verlangen, wenn die Inhalte des Forums für die Softwareentwicklung dafür genutzt werden, Künstliche Intelligenz wie ChatGPT zu trainieren. Das berichtet das US-Magazin Wired unter Berufung auf Prashanth Chandrasekar, den CEO der Internetplattform. Schon ab Mitte des Jahres könnte dieser Zugriff auf die rund 50 Millionen Fragen und Antworten zu Softwareentwicklung Geld kosten, sagte er demnach. Diese dürften eine wichtige Grundlage dafür sein, dass ChatGPT & Co. auch Programmcode entwerfen kann. Chandrasekar hat demnach auch darauf verwiesen, dass das Training von Sprachmodellen mit den Inhalten bereits gegen die Nutzungsbedingungen verstoße.

Bei der Einführung des kostenpflichtigen Zugriffs orientiert sich Stack Overflow demnach an Reddit, wo Ähnliches geplant ist. Auch andere Quellen dürften bald verlangen, finanziell für die Trainingsdaten kompensiert zu werden. KI-Chatbots wie ChatGPT sammeln anhand von Texten im Internet Informationen über die Welt. Welches Material dabei zum Einsatz kommt, entscheidet maßgeblich über die Qualität ihrer späteren Auskünfte und der Konversation mit Menschen. Trotzdem wurde das Material im Internet bislang abgegriffen, ohne dass dafür bezahlt wurde. Neben Internetportalen wie Reddit und Stack Overflow planen laut Wired auch erste US-Verlage, Geld für die Zugriffe zu verlangen. Die Entwicklung, aber auch die Benutzung von KI-Chatbots wie ChatGPT oder Bard könnte damit merklich teurer werden.

Während in den vergangenen Wochen vor allem die teils beeindruckenden Ergebnisse der großen Sprachmodelle (LLM) für erhebliches Aufsehen gesorgt haben, rücken aktuell die dafür benutzten Quellen in den Vordergrund. So hat eine Analyse der Washington Post aufgedeckt, welche teils fragwürdigen Quellen für das Training eines besonders grundlegenden Datensatzes für das Training im Machine Learning gedient haben. Schon vor Monaten haben außerdem Künstler und Künstlerinnen Klage gegen bekannte KI-Bildgeneratoren eingereicht, weil für deren Training ihre Werke benutzt worden seien, ohne dass es dafür eine Erlaubnis kam.

(mho)