Perplexity verstößt gegen AWS-Richtlinien – Amazon prüft

Perplexity nutzt die Infrastruktur von Amazon Web Services. Doch AWS verbietet offenbar das Vorgehen der KI-Antwortmaschine.

10

Tippende Hände, darüber schweben Symbole und die Buchstaben AI.

(Bild: Shutterstock/Poca Wander Stock)

03.07.2024, 10:01 Uhr

Lesezeit: 4 Min.

Von

Eva-Maria Weiß

Perplexity.ai scheint aktuell der ausgemachte Bösewicht unter den KI-Anbietern geworden zu sein. Die Antwortmaschine, wie sie selbst die KI-Suchmaschine mit erweiterten Funktionen nennen, muss sich nun einer Untersuchung von Amazon Web Services (AWS) stellen. Dabei geht es um die robots.txt-Datei, die eigentlich Crawler ausschließen soll. Perplexity hält sich wohl nicht an den Standard. Bei AWS heißt es in den Nutzungsbedingungen jedoch, dass man sich daran halten muss.

Die Vorwürfe, dass Perplexity seine Crawler losschickt, obwohl diesen eigentlich der Zutritt verwehrt wurde, gibt es bereits seit einiger Zeit. Das Techmagazin Wired hat das Verhalten beobachtet und konnte sogar einzelne IP-Adressen ausmachen. Wired gehört zum Condé Nast Verlag, von denen waren weitere Titel betroffen. Auch Forbes kritisiert Perplexity scharf. Nicht nur dafür, dass die Inhalte auf den Seiten gescannt werden, sondern auch, dass die Inhalte in der Antwortmaschine selbst auftauchen – ohne auf die Quellen zu verweisen. Perplexity hat sogenannte Pages entwickelt, die Wikipedia-Seiten ähneln und ein Thema behandeln. Es gibt beispielsweise eine Seite, die ausschließlich auf einer Investigativrecherche von Forbes zum ehemaligen Google-CEO Eric Schmidt beruhen. Statt nur Forbes zu nennen, verlinkt Perplexity sehr klein zahlreiche Medien, die sich auf Forbes beziehen. Für Forbes selbst hat es nach eigenen Aussagen dadurch kaum Seitenaufrufe gegeben.

Videos by heise

Nicht nur Perplexity steht am Pranger

Zwar ist Perplexitys Pages-Funktion besonders prägnant für den Missstand, das Ignorieren der robots.txt obendrauf, dennoch betrifft die Problematik auch andere KI-Suchen und KI-Chatbots. Sie alle nutzen Inhalte und geben diese wieder, ohne dass die Inhalte-Ersteller davon profitieren. Auch die Frage nach den Trainingsdaten ist längst bekannt. OpenAI beispielsweise ist inzwischen Deals mit einzelnen Verlagen eingegangen, um sowohl deren Inhalte für das Training der eigenen KI-Modelle nutzen zu dürfen, als auch deren Publikationen prominent auszuspielen. Es gibt allerdings auch gegen OpenAI mehrere Klagen von Verlagen und Künstlern, die in der Verwendung ihrer Werke durch OpenAI eine Urheberrechtsverletzung sehen.

OpenAI nutzt für seine KI-Modelle die Infrastruktur, die Microsoft bereitstellt. Auch Google kann auf eine eigene Infrastruktur setzen. Perplexity jedoch nutzt AWS. Wired schreibt, man habe dort nachgefragt, ob Perplexity die AWS-Infrastruktur nutze, um verbotenerweise Webseiten zu scrapen. Während die robots.txt ein Standard ist, an den sich in der Regel gehalten wird, der jedoch nicht bindend ist, sieht es mit den Nutzungsbedingungen anders aus, diese sind verpflichtend einzuhalten. Wireds Nachfrage hat nach eigenen Aussagen zu einer Untersuchung durch AWS geführt. Ein Ergebnis gibt es noch nicht.

Lesen Sie auch

Spotify-Co-CEO: Top-Entwickler schreiben dank KI keinen Code mehr

Apple-Studie: Nutzer wollen transparente KI-Agenten statt Black-Box-Systeme

KI-Update Deep-Dive: Gesund und fit mit KI

Apples KI-Strategie: Auch Datenschutz sorgt für Verzögerungen

Eclipse Theia 1.68: KI-Agenten lernen Skills und erledigen To-do-Listen

Perplexity hat jedoch gesagt, dass der eigene PerplexityBot, der auf AWS laufe, den Webstandard respektiere und sich daran halte – man also auch nicht gegen AWS Nutzungsbedingungen verstoße. Der Bot verhalte sich allerdings wie eine Person, sobald jemand eine bestimmte URL in die Suche eingeben würde. Dann hielte er sich auch nicht mehr an die robots.txt. Perplexitys CEO Aravind Srinivas hat erst kürzlich in einem Interview mit heise online erklärt, es brauche ein neues Analytics-System, das die Nutzung von Inhalten zählt und dafür zahlt, nicht die Klicks.

Grundsätzlich scheint das Verständnis vieler KI-Anbieter, Forscher und Investoren, davon, wie das Internet funktioniert, ein sehr eigenes zu sein. Srinivas beispielsweise wirft Wired vor, das Internet nicht zu verstehen. Auch der frühere Mitgründer von DeepMind, das Google später übernommen hat, meint, alles im Internet sei "Freeware": Mustafa Suleyman ist seit einigen Monaten CEO von Microsofts eigenständiger KI-Firma Microsoft AI. "Fair Use" ist eine weitere US-amerikanische Besonderheit des Copyrights, auf die sich KI-Chefs gerne berufen. Sie besagt, wenn es allen zugutekommt, ist es erlaubt, Inhalte zu nutzen. Zweifelhaft, ob ein KI-Modell, das ein Unternehmen wirtschaftliche Vorteile bringt, allen Menschen gleichermaßen zugutekommt.