Reddit a poursuivi Perplexity AI pour avoir continué à utiliser le contenu de Reddit pour former son modèle d'IA après des avertissements antérieurs de ne pas récupérer le contenu de la plateforme.
Alors que les systèmes d’IA s’appuient de plus en plus sur du contenu en ligne accessible au public pour former et générer des réponses, des entreprises comme Reddit tentent de tracer des lignes claires sur ce qui est considéré comme des données « publiques » et « propriétaires ».
Le piège de Reddit révèle un vol présumé de données
Reddit a porté plainte contre Perplexity, une entreprise d'IA de 20 milliards de dollars, l'accusant de collecter illégalement des données via sa plateforme. Selon des documents judiciaires déposés mercredi devant un tribunal fédéral de Manhattan, Reddit affirme que Perplexity a ignoré les instructions de ne pas extraire son contenu et a continué d'utiliser les données de Reddit pour générer des réponses d'IA.
La plainte affirme que Reddit a explicitement empêché Perplexity de collecter ses données, mais le « moteur de réponses » de l'entreprise d'IA a tout de même produit des résultats contenant du contenu Reddit. « L'augmentation a été simatic qu'un observateur extérieur a émis l'hypothèse qu'elle était due à la conclusion d'un accord de licence entre Perplexity et Reddit », indique la plainte. « En réalité, il n'existe aucune licence entre Perplexity et Reddit. »
Pour prouver ses soupçons, Reddit a conçu un test numérique astucieux. Il a créé une publication « piège » qui ne pouvait être trouvée que par le moteur de recherche de Google. Google a conclu un accord de licence de contenu légitime avec Reddit ; toute entreprise ne disposant pas d'un tel accord aurait donc dû être empêchée d'accéder à cette publication.
L'entreprise l'a décrit comme l'équivalent en ligne d'une « facture marquée ». Si le système de Perplexity reproduisait le contenu de cette publication cachée, Reddit saurait qu'il avait contourné ses mesures de sécurité, peut-être en récupérant des données via les résultats de recherche de Google (SERP).
En quelques heures, le message de test prétendument privé a commencé à apparaître dans les réponses générées par l'outil d'IA de Perplexity.
« La seule façon pour Perplexity d'obtenir ce contenu Reddit et de l'utiliser ensuite dans son « moteur de réponse » est que lui et/ou ses co-accusés aient récupéré les SERP de Google », indique le procès.
Reddit a cité trois sociétés spécialisées dans le scraping de données dans sa plainte : Oxylabs UAB, AWM Proxy et SerpApi. Il les accuse d'avoir aidé Perplexity à accéder sans autorisation aux publications de Reddit ou d'avoir vendu les données de Reddit à Perplexity.
Les allégations de Reddit démenties
Perplexity a rejeté les allégations . Son porte-parole, Jesse Dwyer, a déclaré que Perplexity « ne tolérerait aucune menace contre la transparence et l'intérêt public ». L'entreprise a également indiqué dans une publication sur Reddit après le dépôt de la plainte qu'elle « n'entraîne pas de modèles d'IA sur le contenu ».
Les représentants des autres entreprises citées dans la plainte ont également publié des déclarations. Un porte-parole de SerpApi a déclaré que l'entreprise comptait se défendre vigoureusement devant les tribunaux. Denas Grybauskas, directeur de la gouvernance et de la stratégie d'Oxylabs, a déclaré que son entreprise était « choquée et déçue », ajoutant qu'Oxylabs « a toujours été et restera un pionnier et un leader du secteur de la collecte de données publiques ».
En août, Cloudflare, une entreprise d'infrastructure internet, a révélé avoir mené un test similaire pour vérifier si Perplexity respectait les règles d'exploration web. Cloudflare a déclaré avoir créé des pages marquées d'un code interdisant aux robots de Perplexity d'y accéder, mais a tout de même constaté que les robots de l'entreprise d'IA visitaient les pages restreintes.
Le PDG de Cloudflare, Matthew Prince, a fait la une des journaux en comparant le comportement de Perplexity à celui des « hackers nord-coréens ».
« Certaines entreprises d'IA soi-disant "réputées" se comportent davantage comme des pirates informatiques nord-coréens », a écrit Prince sur X. « Il est temps de les dénoncer, de les condamner et de les bloquer. » La plainte déposée par Reddit cite les propos de Prince dans son argumentation.
Affinez votre stratégie grâce au mentorat et aux idées quotidiennes - Accès gratuit de 30 jours à notre programme de trading
