Les Crawlers de Perplexity ont continué à accéder au contenu à partir de dizaines de milliers de sites Web, même après que ces sites les aient explicitement bloqués, selon le fournisseur d’infrastructure Internet CloudFlare. La société a déclaré lundi qu’elle avait radié la perplexité de son programme de bot vérifié et mis en œuvre des blocs contre ce qu’il a caractérisé comme des pratiques de grattage trompeuses.
Perplexity, basée à San Francisco, a été fondée en 2022 par Aravind Srinivas (PDG, ancien chercheur OpenAI), Denis Yarats (ancienne AI Facebook), Johnny Ho et Andy Konwinski (co-fondateurs de Databrics). La société a reçu un financement d’investisseurs, dont Elad Gil, Nat Friedman (ancien PDG de Github) et Nvidia, entre autres, et a été évalué à 18 milliards de dollars après avoir collecté 100 millions de dollars le mois dernier.
Le récent conflit a éclaté après que les clients de Cloudflare se sont plaints que la perplexité grattait toujours leurs sites malgré la mise en œuvre des deux directives de robots.txt et des règles de pare-feu spécifiques pour bloquer les robots déclarés de la société d’IA. Les ingénieurs de Cloudflare Gabriel Corral, Vaibhav Singhal, Brian Mitchell et Reid Tatoris ont confirmé dans les tests que « les robots de Perplexity étaient en fait bloqués sur les pages spécifiques en question ».
Pour tester le comportement de Perplexity, CloudFlare a créé plusieurs domaines nouvellement achetés avec des fichiers Robots.txt restrictifs qui ont interdit tout accès automatisé. « Nous avons mené une expérience en interrogeant la perplexité AI avec des questions sur ces domaines, et nous avons découvert que la perplexité fournissait toujours des informations détaillées concernant le contenu exact hébergé sur chacun de ces domaines restreints. »
Ce qui s’est passé ensuite les a surpris. Plutôt que de respecter les blocs, la perplexité a semblé changer de tactique. « Nous avons observé que Perplexity utilise non seulement leur agent utilisateur déclaré, mais aussi un navigateur générique destiné à usurper l’identité de Google Chrome sur MacOS lorsque leur Crawler déclaré a été bloqué », ont écrit les ingénieurs.
Source: Cloudflare
Les robots furtifs ont utilisé des techniques d’évasion sophistiquées. « Ce robot non déclaré non déclaré a utilisé plusieurs IPs non répertoriés dans la gamme IP officielle de Perplexity, et allait tourner à travers ces IP en réponse à la politique Robots.txt restrictive et bloquer de CloudFlare. En plus de faire tourner d’autres IPS, nous avons observé des demandes provenant de différents ASN dans les tentatives d’évasion de blocs de site Web. »
Selon CloudFlare, les robots «déclarés» de Perplexity – ceux qui sont facilement identifiables – réintégment 20 à 25 millions de demandes par jour, tandis que les robots furtifs non déclarées – ceux qui reposent sur des tactiques ombragées pour cacher leur objectif – affecsé 3 à 6 millions de demandes par jour. « Cette activité a été observée dans des dizaines de milliers de domaines et des millions de demandes par jour. »
L’entreprise n’a pas répondu à la demande de commentaires. Un porte-parole a rejeté les allégations à rien de plus qu’un «argument de vente» de cloudflare.
Le PDG de Cloudflare, Matthew Prince, a exprimé ce qu’il considère comme une extraction non durable de contenu Web par les entreprises de l’IA. « Les références de trafic de recherche ont chuté car les gens comptent de plus en plus sur les résumés de l’IA. » En juillet, il a révélé des ratios dévastateurs: bien que Google envoie un visiteur pour chaque 18 pages qu’il rampe, les sociétés d’IA sont bien pires. Le ratio d’OpenAI s’est détérioré de 250 à 1 il y a six mois à 1 500 à 1 aujourd’hui. Les chiffres d’Anthropic sont encore plus extrêmes, passant de 6 000 à 1 à 60 000 à 1 au cours de la même période.
Source: Cloudflare
Cela a incité Cloudflare à lancer ce qu’il appelle le «Jour de l’indépendance du contenu», défaut pour bloquer les chenilles d’IA pour tous les nouveaux domaines, devenant le vigilant de facto protégeant les créateurs de contenu contre les menaces des rampeurs d’IA embêtants.
Comme indiqué précédemment, plus d’un million de sites Web avaient déjà choisi de bloquer depuis l’automne dernier, avec des éditeurs majeurs, dont le ,,,, Reddit, Quora et Universal Music Group rejoignant le mouvement.
« Il y a des préférences claires que les robots devraient être transparents, servir un objectif clair, effectuer une activité spécifique et, surtout, suivre les directives et les préférences du site Web », a déclaré Cloudflare. La société a contrasté le comportement de Perplexity avec OpenAI, qui, selon lui, respecte correctement les fichiers robots.txt et cesse de ramper lorsqu’il est bloqué.
La réponse de CloudFlare comprend à la fois des mesures techniques immédiates et des initiatives à plus long terme. La société a déployé des matchs de signature pour le robot furtif dans ses règles gérées, disponibles pour tous les clients, y compris les utilisateurs gratuits. Il développe également des outils comme un « Labyrinthe AI », qui emprisonne les bots non conformes dans des labyrinthes de faux contenu, et un marché « Pay-Per-Crawl » qui permettrait aux éditeurs de facturer aux sociétés d’IA d’accéder à leur contenu.