Anthropic accusé de « scraping » de données agressif

Plusieurs entreprises condamnent le comportement « agressif » du robot d’indexation d’Anthropic, qui visite des sites web jusqu’à des millions de fois par jour pour collecter des données.

Pour rendre les modèles d’IA intelligents, il faut une grande quantité de données. C’est désormais un secret de polichinelle que ces données proviennent de l’internet. Les entreprises d’IA telles qu’OpenAI et Anthropic disposent de robots d’indexation, qui parcourent l’internet et collectent des informations accessibles au public. En théorie, rien n’interdit cette méthode, mais Anthropic semble aller assez loin dans ce domaine.

Kyle Wens, PDG d’iFixit, critique Anthropic dans un message publié op X. Le robot d’Anthropic aurait visité le site un million de fois en 24 heures. Et cela n’est pas tout : le site Freelancer.com a reçu 3,5 millions de visites d’Anthropic en seulement quatre heures.

Hey @AnthropicAI: I get you're hungry for data. Claude is really smart! But do you really need to hit our servers a million times in 24 hours?

You're not only taking our content without paying, you're tying up our devops resources. Not cool.
— Kyle Wiens (@kwiens) July 24, 2024

Les règles de l’internet

Tant iFixit que Freelancer.com dénoncent la manière « agressive » dont Anthropic « scrape » le web. Ce n’est pas seulement parce qu’Anthropic va utiliser leur contenu, mais aussi parce qu’une activité excessive des robots d’indexation peut surcharger les serveurs.

L’affaire est allée si loin sur Freelancer.com que les administrateurs du site ont même dû mettre Anthropic sur leur liste noire. « Ils violent les règles de l’internet », dit le PDG Matt Barrie au Financial Times. Anthropic répond qu’elle examine les plaintes et que son intention n’est pas de se comporter de manière intrusive.

Les fabricants de grands modèles d’intelligence artificielle sont critiqués depuis quelque temps pour la manière dont ils traitent les données publiques sur l’internet. Le raisonnement des membres de l’industrie repose sur le principe que les données publiques peuvent être utilisées pour former des modèles. C’est un raisonnement erroné. Même sur l’internet, les droits d’auteur jouent un rôle tout aussi important.

Depuis, les entreprises d’IA ont conclu des accords de licence avec des médias d’information ou de grandes plateformes internet comme Reddit, qui gèrent et possèdent une grande quantité de contenu. Les entreprises d’IA espèrent ainsi éviter de futures poursuites judiciaires. Anthropic n’a pas encore trouvé de tels accords.

Robot.txt

En tant qu’administrateur web, il est possible de bloquer l’accès des robots d’indexation au site web. En injectant le fichier robot.txt dans le répertoire du site, on met des bâtons dans les roues des robots d’indexation. Mais ce système est encore loin d’être infaillible. En fait, il est assez facile de le contourner en « déguisant » les robots d’indexation en visiteurs légitimes.

Cookie	Duration	Description
__gads	1 year 24 days	Le cookie __gads, défini par Google, est stocké sous le domaine DoubleClick et permet de suivre le nombre de fois où les utilisateurs voient une publicité, de mesurer le succès de la campagne et de calculer ses revenus. Ce cookie ne peut être lu qu'à partir du domaine sur lequel il est installé et ne permet pas de suivre les données lors de la navigation sur d'autres sites.
_ga	2 years	Il s'agit d'un cookie de base de Google Analytics permettant d'identifier les utilisateurs de notre site Web. Par défaut, nous utilisons une version limitée de Google Analytics avant que les cookies ne soient acceptés. Les données y sont rendues anonymes et les fonctions de marketing sont désactivées.
_gid	1 day	Il s'agit d'un cookie de base de Google Analytics permettant d'identifier les utilisateurs de notre site Web. Par défaut, nous utilisons une version limitée de Google Analytics avant que les cookies ne soient acceptés. Les données y sont rendues anonymes et les fonctions de marketing sont désactivées.
cli_user_preference	1 year	Ce cookie garantit le bon fonctionnement de notre notification de cookies. Vos préférences sont stockées dans un cookie, afin que nous le sachions lors de votre prochaine visite.
CONSENT	2 years	YouTube place ce cookie via les vidéos YouTube intégrées et enregistre des données statistiques anonymes.
cookielawinfo*	1 year	Ce cookie garantit que notre notification de cookies fonctionne correctement. Vos préférences sont enregistrées dans un cookie afin que nous sachions quand vous nous rendrez visite la prochaine fois.
IDE	1 year 24 days	Les cookies Google DoubleClick IDE sont utilisés pour stocker des informations sur la façon dont l'utilisateur utilise le site web afin de lui présenter des annonces pertinentes et en fonction de son profil.
itdaily_lang	1 year	Ce cookie est nécessaire pour masquer la notification du pays. La notification du pays est affichée lorsque vous visitez le site web à partir d'un pays. C'est pourquoi nous proposons également une édition spécifique de ITdaily. Vous pouvez masquer cette notification grâce à ce cookie.
itdaily_theme	1 year	Ce cookie enregistre si vous voulez activer la version darkmode ou normale.
PHPSESSID	1 day	Ce cookie provient d'applications PHP standard. Le cookie est utilisé pour stocker et identifier une session d'utilisateur. Il s'agit d'un cookie de session qui est immédiatement supprimé lorsque vous fermez le navigateur.
test_cookie	15 minutes	Le test_cookie est défini par doubleclick.net et est utilisé pour déterminer si le navigateur de l'utilisateur prend en charge les cookies.
viewed_cookie_policy	1 year	Ce cookie garantit le bon fonctionnement de notre notification de cookies. Vos préférences sont enregistrées dans un cookie afin que nous puissions connaître votre prochaine visite.
wordpress_*	30 days	Wordpress utilise plusieurs cookies pour que le site web fonctionne correctement, par exemple pour permettre à l'équipe éditoriale de se connecter.
wp-*	1 day	Wordpress utilise plusieurs cookies pour que le site web fonctionne correctement, par exemple pour permettre à l'équipe éditoriale de se connecter.

Cookie	Duration	Description
_li_id.*	2 years	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
_li_ses.*	30 minutes	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
itdaily_views	1 hour	Ce cookie est utilisé par notre propre système pour suivre les utilisateurs sur le site web.

Cookie	Duration	Description
_li_id.*	2 years	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
_li_ses.*	30 minutes	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
VISITOR_INFO1_LIVE	5 months 27 days	Un cookie défini par YouTube pour mesurer la bande passante qui détermine si l'utilisateur obtient la nouvelle ou l'ancienne interface du lecteur.
YSC	session	Le cookie YSC est défini par YouTube et est utilisé pour suivre les vues des vidéos intégrées dans les pages YouTube.

Anthropic accusé de « scraping » de données agressif

Les règles de l’internet

Robot.txt

actualités liées

newsletter