Crawler ohne Grenzen: Perplexity ignoriert robots.txt
Viel Kritik an Perplexity. Die KI-Suchmaschine hält sich nicht an Regeln und gibt Informationen ohne Erlaubnis und falsch wieder.
Mit der robots.txt-Datei kann man eigentlich Crawler daran hindern, die Inhalte auf der eigenen Webseite abzuscannen. Doch Perplexity hält sich daran offensichtlich nicht. Wired hat den zuständigen Bot beobachtet und Tests gemacht. Dabei schnitt die KI-Suchmaschine nicht besonders gut ab.
Perplexity ist eine "Antwortmaschine", wie CEO Aravind Srinivas in einem Interview mit heise online erklärt. Statt einer Link-Liste bekommt man bei Perplexity eine Antwort im Fließtext, gespickt mit Links zu den Quellen und Stichpunkten. Wie bei einem Chatbot kann man weitere Fragen stellen, tiefer in ein Gespräch zu einem Thema einsteigen. Dafür nutzt Perplexity Echtzeit-Informationen, aber auch Snapshots. Crawler indexieren täglich das Web. Ein solcher Bot ist nun dem Nachrichtenmagazin Wired aufgefallen. Er ignoriert nämlich den Web-Standard der robots.txt – eine Datei, die den Crawlern sagt: hier bitte nicht.
Perplexity kennt Inhalte, die es nicht kennen sollte
Das führt dazu, dass Perplexity auch Artikel zitieren und wiedergeben kann, die der Antwortmaschine nicht vorliegen sollten. Betroffen sind Artikel von Wired, aber nach eigenen Aussagen, auch anderer Condé Nast Publikationen. Das ist der Verlag hinter dem Techmagazin, zu dem auch zahlreiche Mode- und Lifestylemagazine wie die Vogue und Glamour gehören.
Dabei ist auch aufgefallen, dass die Wiedergabe nicht mal unbedingt richtig ist. Wired will mehrere ArtikelĂĽberschriften in die Suche eingegeben haben, um Zusammenfassungen zu bekommen. "Die Ergebnisse zeigten, dass der Chatbot die Wired-Artikel teilweise sehr genau umschreibt, teilweise aber auch ungenau und mit minimaler Quellenangabe zusammenfasst", schreibt Wired. In einem Fall soll Perplexity allerdings auch geschrieben haben, Wired habe ĂĽber einen Polizeibeamten berichtet, der eine Straftat begangen hat. Das sei schlicht falsch.
Perplexity soll zwar kürzlich eine Liste mit IP-Adressen veröffentlicht haben, um transparenter zu sein – die inzwischen wieder zurückgezogen wurde. Doch der Perplexity-Bot muss laut Wired mindestens eine unveröffentlichte IP-Adresse nutzen, mit der er sich über die Regeln zum Scrapen von Inhalten hinweggesetzt hat. Sie ist dem Verlag aufgefallen. Wired schreibt, es hat mindestens 822 Zugriffe in den vergangenen drei Monaten gegeben. Das sei allerdings eine "massive Untererfassung", da der Verlag nur einen Bruchteil seiner Netzwerkprotokolle aufbewahre.
Perplexitys CEO hat sich nicht konkret zu den Vorwürfen geäußert, er solle nur gesagt haben, Wired habe missverstanden, wie das Web und Perplexity funktionieren.
KI und der unerlaubte Zugriff auf Inhalte
Auch andere Verlage haben sich bereits über Perplexity beschwert. Forbes, CNBC und Bloomberg etwa beklagen, dass sogenannte Perplexity Pages, das sind KI-generierte Übersichten, die an Wikipediaseiten erinnern, auf Exklusivbeiträgen von ihnen basieren. Die Inhalte stünden zudem hinter Bezahlschranken. Bei Forbes ging es beispielsweise um geheime Arbeiten des ehemaligen Google-CEOs Eric Schmidt. Er soll an einem Projekt zu Kampfdrohnen beteiligt sein. Die dazugehörige Übersichtsseite bei Perplexity verweist nur sehr klein auf die Quelle. Srinivas erklärte bei X daraufhin, man stimme zu, dass die Quellen prominenter verlinkt werden sollten. Diese Antwort dürfte weder für Forbes noch für andere Verlage zufriedenstellend sein. Forbes hat laut Axios inzwischen eine Klage gegen Perplexity eingereicht.
Im Interview mit heise online sagte Srinivas, man werde in Kürze weitere Ankündigungen machen, wie Verlage künftig an den Einnahmen von Perplexity beteiligt werden sollen. Der CEO stellt sich ein neues Analytics-System vor, bei dem es nicht mehr um die Klicks geht, sondern gezählt wird, wie oft eine Information gelesen oder genutzt wird.
Laut einem Semafor-Bericht ist Perplexity zudem in Gesprächen mit Verlagen, um mit diesen Kooperationen einzugehen. Auch OpenAI bezahlt einzelnen Verlagen Geld dafür, deren Inhalte sowohl für das Training der eigenen KI-Modelle nutzen zu können, als auch diese in den eigenen Produkten bevorzugt anzuzeigen.
(emw)