Bericht: KI-Start-up Anthropic soll unerlaubt Daten abgreifen

Mehrere Web-Publisher beschuldigen Anthropic, unerlaubt Inhalte für das Training seiner KI-Modelle zu sammeln. Anweisungen, damit aufzuhören, würden ignoriert.

27

(Bild: photoschmidt/ Shutterstock.com)

29.07.2024, 21:23 Uhr

Lesezeit: 5 Min.

Von

Andreas Knobloch

Dem KI-Start-up Anthropic wird vorgeworfen, in aggressiver Weise Daten von Websites abzugreifen, um seine KI-Systeme zu trainieren, und dabei möglicherweise gegen die Nutzungsbedingungen der Herausgeber zu verstoßen. Das berichtet die britische Tageszeitung Financial Times.

Unternehmen wie Anthropic oder OpenAI trainieren ihre großen generativen KI-Sprachmodelle mit gewaltigen Datenmengen aus einer Vielzahl von Quellen. Anthropics KI-Chatbot Claude, der OpenAIs ChatGPT Konkurrenz macht, kann auf eine Reihe von Aufforderungen in natürlicher Sprache reagieren. Das erklärte Ziel von Anthropic, das von einer Gruppe ehemaliger OpenAI-Mitarbeiter gegründet wurde, ist "die verantwortungsvolle Entwicklung und Pflege fortschrittlicher KI zum langfristigen Nutzen der Menschheit".

Doch diesen Anspruch scheint das in San Francisco ansässige Unternehmen nicht immer einzuhalten. Zumindest, wenn man Matt Barrie Glauben schenkt, dem Geschäftsführer von Freelancer.com, einer Online-Jobbörse, in der Millionen von Freiberuflern ihre Dienste anbieten. Laut Financial Times beschuldigt Barrie Anthropic, der "mit Abstand aggressivste Scraper" seines Webportals zu sein.

Mehrere Web-Publisher betroffen

Andere Webverleger werfen dem Bericht zufolge Anthropic ebenfalls vor, Daten ihrer Websites abzugreifen und darüber hinaus ihre Anweisungen zu ignorieren, ihre Inhalte nicht mehr zu sammeln. Freelancer.com habe innerhalb von vier Stunden 3,5 Millionen Besuche von einem mit Anthropic verknüpften "Webcrawler" erhalten, schreibt die Financial Times mit Verweis auf ihr vorliegende Daten. Die Besuche hätten auch dann noch zugenommen, als Freelancer.com versuchte, seine Zugriffsanfragen mithilfe von Standard-Webprotokollen zur Steuerung von Crawlern abzulehnen, erklärte Barrie gegenüber dem Blatt. Daraufhin habe er beschlossen, den Verkehr von Anthropics Internetadressen insgesamt zu blockieren.

"Wir mussten sie [Anthropic, Anm.] sperren, weil sie sich nicht an die Regeln des Internets halten", so Barrie. "Das ist ungeheuerliches Scraping, das die Website für alle, die darauf arbeiten, langsamer macht und letztlich unsere Einnahmen beeinträchtigt." Anthropic erklärte, dass man den Fall untersuche.

Ähnliche Vorwürfe erhebt gegenüber Financial Times Kyle Wiens, Geschäftsführer von iFixit.com, einer Website für Reparaturanleitungen. Die Seite habe innerhalb von 24 Stunden eine Million Zugriffe von Anthropic-Bots erhalten. Die Nutzungsbedingungen von iFixit untersagten die Nutzung seiner Daten für maschinelles Lernen, so Wiens. "Meine erste Botschaft an Anthropic lautet: Wenn Sie diese Daten zum Trainieren Ihres Modells verwenden, ist das illegal. Meine zweite ist: Das ist kein höfliches Internetverhalten. Crawling ist eine Sache der Etikette." Websites verwenden ein als "robots.txt" bekanntes Protokoll, um Crawler und andere Webroboter fernzuhalten. Der Robots Exclusion Standard regelt, wer automatisiert Website-Inhalte abgrasen darf – das ist in Zeiten von KI-Chatbots wie ChatGPT hochaktuell und häufig Konfliktthema.

Streit um die Daten für KI-Training

Das Scraping von Daten ist keineswegs eine neue Praxis, hat aber in den vergangenen zwei Jahren infolge des KI-Wettrüstens dramatisch zugenommen. "Die Suchmaschinen haben schon immer eine Menge Scraping betrieben, aber mit dem Training generativer KI hat sich das Ganze auf eine neue Stufe gestellt", sagt Barrie. Die führenden KI-Unternehmen konkurrieren um die Entwicklung immer leistungsfähigerer und ausgefeilterer Sprachmodelle und benötigen dafür Unmengen an Daten. Damit stellt sich aber auch die Frage nach dem Urheberrecht und der Nutzung von Daten für das Training der Modelle. Immer wieder sammeln Unternehmen wie OpenAI oder X ungefragt Daten fürs KI-Training. Gerade erst erklärte der Chef von Microsoft AI, Mustafa Suleyman, es gebe einen sozialen Vertrag, der die Nutzung von Inhalten im Netz erlaubt – auch für KI-Training. Er erntete viel Widerspruch.

Videos by heise

Die Unternehmen wehren sich auf unterschiedliche Art und Weise. Reddit hat begonnen, verschiedene Suchmaschinen und deren Webcrawler auszusperren, sollten sich diese nicht mit der Online-Plattform auf eine Lizenzvereinbarung einigen. Für große Aufmerksamkeit sorgt der Rechtsstreit zwischen der US-Tageszeitung New York Times und OpenAI. Die Zeitung wirft OpenAI vor, das Urheberrecht verletzt zu haben, indem es Tausende Artikel für das Training seiner Sprachmodelle genutzt – und damit auf den Kosten der Zeitung ein Geschäft aufgebaut habe. Sie pocht auf Schadenersatz. Im Mai ging Open AI einen Deal mit News Corp. ein, einem der größten Verlage weltweit, zu dem Blätter wie das Wall Street Journal, die New York Post, die Sunday Times oder der Daily Telegraph gehören. OpenAI sicherte sich Zugang zu allen Inhalten der dazugehörigen Zeitungen. Andere Medienunternehmen, etwa die Agentur Reuters, lizenzieren inzwischen ihre Inhalte für KI-Training.