La division cloud computing d’Amazon a lancé une enquête sur Perplexity AI. La startup de recherche AI violait les règles d’Amazon Web Services en analysant les sites Web qui tentaient de l’empêcher de le faire, a appris WIRED.
Un porte-parole d’AWS, qui a parlé à WIRED sous couvert d’anonymat, a confirmé l’enquête menée par la société sur Perplexity. WIRED avait déjà constaté que la startup – qui a soutenir Du fonds familial de Jeff Bezos et de Nvidia, et c’était récemment valeur D’une valeur de 3 milliards de dollars, il semble être basé sur le contenu de sites Web volés dont l’accès a été bloqué via le Bot Exclusion Protocol, une norme Web courante. Bien que le protocole d’exclusion des robots ne soit pas juridiquement contraignant, les conditions d’utilisation le sont généralement.
Protocole d’exclusion des robots Il s’agit d’une norme Web vieille de plusieurs décennies qui consiste à placer un fichier texte brut (tel que wired.com/robots.txt) sur un domaine pour indiquer quelles pages ne doivent pas être accessibles aux robots et aux robots d’exploration automatisés. Si les entreprises utilisant des scrapers peuvent choisir d’ignorer ce protocole, la plupart l’ont traditionnellement respecté. Un porte-parole d’Amazon a déclaré à WIRED que les clients AWS doivent respecter la norme robots.txt lors de l’exploration de sites Web.
« Les conditions d’utilisation d’AWS interdisent aux clients d’utiliser nos services pour toute activité illégale, et nos clients sont responsables du respect de nos conditions et de toutes les lois applicables », a déclaré le porte-parole dans un communiqué.
Un examen des pratiques déconcertantes s’ensuit Reportage du magazine Forbes du 11 juin qui a accusé la startup d’avoir plagié au moins un article. Les enquêtes de WIRED ont confirmé cette pratique et ont trouvé des preuves supplémentaires d’abus et de plagiat supprimées grâce à des systèmes liés au chatbot alimenté par l’IA de Perplexity. Les ingénieurs de Condé Nast, la société mère de WIRED, ont bloqué le robot Perplexity sur tous ses sites Web à l’aide d’un fichier robots.txt. Mais WIRED a découvert que la société avait accédé à un serveur en utilisant une adresse IP non publiée – 44.221.181.252 – qui avait visité les propriétés de Condé Nast au moins des centaines de fois au cours des trois derniers mois, apparemment pour supprimer les sites Web de Condé Nast.
L’appareil associé à Perplexity semble être engagé dans une exploration à grande échelle de sites d’actualités qui empêche les robots d’accéder à leur contenu. Les porte-parole du Guardian, de Forbes et du New York Times affirment également avoir détecté l’adresse IP sur leurs serveurs à plusieurs reprises.
WIRED a retracé l’adresse IP jusqu’à une machine virtuelle connue sous le nom d’instance Elastic Compute Cloud (EC2) hébergée sur AWS, qui a commencé son enquête après que nous ayons demandé si l’utilisation de l’infrastructure AWS pour supprimer des sites Web les empêchait de violer les conditions de service de l’entreprise.
La semaine dernière, le PDG de Perplexity, Aravind Srinivas, a d’abord répondu à l’enquête de WIRED en déclarant que les questions que nous avons posées à l’entreprise « reflètent une incompréhension profonde et fondamentale du fonctionnement de Perplexity et d’Internet ». Alors Srinivas dit : Il a dit à Fast Company L’adresse IP secrète observée par WIRED lors du scraping des sites Condé Nast, ainsi que le site de test que nous avons créé, étaient exploités par un tiers qui effectue des services d’exploration et d’indexation du Web, a déclaré Srinivas. Il a refusé de nommer l’entreprise, invoquant un accord de non-divulgation. Lorsqu’on lui a demandé s’il dirait aux tiers d’arrêter d’explorer WIRED, Srinivas a répondu : « C’est compliqué. »
More Stories
Apple annonce l’expansion de Vision Pro dans deux pays supplémentaires
Nintendo lance une application musicale avec des thèmes de Mario et Zelda et, plus important encore, une chaîne Wii Shop
C’est le journal que personne n’a lu avant d’annoncer la disparition de la cryptographie moderne.