Crawler für Training von GPT ausschließen: OpenAI stellt Code für robots.txt vor

Für das Training von KI-Chatbots wie ChatGPT wird das Internet durchpflügt. Wer Inhalte davon ausschließen will, kann das nun über Code in der robots.txt tun.

In Pocket speichern vorlesen Druckansicht 51 Kommentare lesen
Hand an tastatur mit dem Wort ChatGPT im Vordergrund

(Bild: CHUAN CHUAN/Shutterstock.com)

Lesezeit: 3 Min.

Wer nicht will, dass Inhalte auf eigenen Webseiten für das Training der GPT-Sprachmodelle von OpenAI benutzt werden, kann das jetzt verhindern. Das US-Unternehmen hinter ChatGPT hat dafür zusammengefasst, wie der Web-Crawler für die KI-Technik in der robots.txt einer Website ausgesperrt werden kann. Dafür müssen in der Datei lediglich die beiden Zeilen eingefügt werden:

User-agent: GPTBot
Disallow: /

Außerdem kann demnach aber auch vorgegeben werden, dass nur bestimmte Ordner für KI-Training genutzt werden können und andere nicht. Dafür schreibt OpenAI folgenden Code vor:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Erkennen lässt sich der Crawler von OpenAI demnach an diesem String:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Webseiten, die von dem GPTBot besucht wurden, "können potenziell dafür genutzt werden, künftige GPT-Modelle zu verbessern", schreibt OpenAI. Gleichzeitig erklärt das Unternehmen, dass Seiten ausgefiltert werden, die über eine Paywall verfügen, dafür bekannt sind, personenbeziehbare Daten zu sammeln oder auf denen Texte stehen, "die gegen unsere Regeln verstoßen". Wer es dem Crawler erlaube, die Daten zu sammeln, könne dabei helfen, dass KI-Modelle akkurater und insgesamt besser werden, heißt es noch.

Erst vor wenigen Tagen hat sich OpenAI gemeinsam mit anderen KI-Unternehmen gegenüber der US-Regierung selbst verpflichtet, KI-Inhalte künftig mit Wasserzeichen zu kennzeichnen und die Technik intensiv zu testen, bevor sie auf den Markt kommt. Von Hinweisen darauf, mit welchen Inhalten aus dem Internet sie trainiert wurden, war dabei genauso wenig die Rede wie von einem Ende der Praxis, das Internet dafür einfach durchzupflügen. Mit den Angaben für die robots.txt bekommen Webseiten-Betreiber nun etwas Kontrolle zurück.

Das Vorgehen von OpenAI ist nicht der erste Versuch, Erstellern von Inhalten die Möglichkeit zu geben, selbst darüber zu entscheiden, ob sie zum Training von Künstlicher Intelligenz beitragen wollen. Bereits im November hat das Online-Kunstportal DeviantArt Nutzern und Nutzerinnen erklärt, wie sie ihre Werke um einen diesbezüglichen Hinweis ergänzen können. Dazu hatte die Plattform ein Label "noai" eingeführt. Ob die Entwickler von KI-Technik das beachten würden, konnte DeviantArt aber nicht beeinflussen.

Für den parallel dazu eingeführten Bildgenerator DreamUp hatte die Plattform das gleichzeitig deutlich erschwert und erst nach heftigen Protesten abgeändert. Danach wurde daraus ein Opt-in, nur wer will, dass eigene Werke als KI-Material genutzt werden, musste danach aktiv werden. Das gilt nicht für den GPTBot von OpenAI, wer ihm den Weg auf eine Website versperren will, muss jetzt die robots.txt anpassen.

(mho)