Cloudflare désactive les robots d'indexation en un seul clic

Cloudflare sort un nouvel outil pour empêcher les robots d’indexation d’accéder aux sites web. La méthode est plus robuste que la méthode robot.txt.

En cette époque d’IA générative, il est plus important que jamais de protéger son contenu. Aujourd’hui, l’internet déborde de robots d’indexation à la recherche de données pour former des modèles. Cloudflare annonce une nouvelle technique qui permet aux administrateurs de sites web d’empêcher plus facilement les robots d’exploration de pénétrer sur le web. Cet outil repose sur un système d’« empreintes digitales ».

Les robots d’indexation font désormais partie intégrante du trafic internet. Cloudflare estime qu’environ 40 % du million de sites qu’il gère ont déjà été visités par un robot d’indexation. Sur les dix premiers sites, c’est même quatre-vingts pour cent. Ce sont des « araignées » numériques qui parcourent les sites web sans être détectées et qui collectent des données pour former des modèles d’intelligence artificielle.

Selon Cloudflare, le robot d’indexation le plus actif est Bytespider, qui appartient à Bytedance, la société mère de TikTok. Il a déjà été détecté sur 40 % des sites web. Mais le GPTBot d’OpenAI est également très présent, avec 35 % des sites.

Robots.txt

Il existe déjà une astuce pour rendre la tâche plus difficile aux robots d’indexation. En injectant le fichier robot.txt dans le répertoire der son site web, on bloque l’accès aux robots d’indexation. Notons qu’OpenAI et Google eux-mêmes recommandent cette astuce aux administrateurs de sites web qui ne peuvent pas être visités par leurs robots d’indexation.

Cloudflare explique toutefois que Robot.txt ne fonctionne pas à toute épreuve. Les administrateurs de sites web ne le mettent pas toujours en œuvre ou ne l’appliquent qu’à un nombre limité de robots d’indexation. Et les développeurs de robots d’indexation ne sont pas toujours très corrects non plus. En « déguisant » un robot d’indexation en visiteur légitime d’un site web, on peut facilement le contourner.

Empreinte digitale

Cloudlfare a développé un nouveau système contre ces robots d’indexation, en réduisant les points faibles par lesquels ils peuvent passer. L’outil vérifie l’« empreinte digitale » de l’identité qui envoie une requête au site web. Ironiquement, Cloudflare utilise l’apprentissage automatique pour déterminer si l’empreinte correspond ou non à un robot d’indexation.

L’outil est disponible pour tous les clients de Cloudflare et peut être activé d’un simple clic dans le tableau de bord de gestion. Il y aura un nouveau bouton Block AI Scrapers and Crawlers dans le menu de sécurité.

Cookie	Duration	Description
__gads	1 year 24 days	Le cookie __gads, défini par Google, est stocké sous le domaine DoubleClick et permet de suivre le nombre de fois où les utilisateurs voient une publicité, de mesurer le succès de la campagne et de calculer ses revenus. Ce cookie ne peut être lu qu'à partir du domaine sur lequel il est installé et ne permet pas de suivre les données lors de la navigation sur d'autres sites.
_ga	2 years	Il s'agit d'un cookie de base de Google Analytics permettant d'identifier les utilisateurs de notre site Web. Par défaut, nous utilisons une version limitée de Google Analytics avant que les cookies ne soient acceptés. Les données y sont rendues anonymes et les fonctions de marketing sont désactivées.
_gid	1 day	Il s'agit d'un cookie de base de Google Analytics permettant d'identifier les utilisateurs de notre site Web. Par défaut, nous utilisons une version limitée de Google Analytics avant que les cookies ne soient acceptés. Les données y sont rendues anonymes et les fonctions de marketing sont désactivées.
cli_user_preference	1 year	Ce cookie garantit le bon fonctionnement de notre notification de cookies. Vos préférences sont stockées dans un cookie, afin que nous le sachions lors de votre prochaine visite.
CONSENT	2 years	YouTube place ce cookie via les vidéos YouTube intégrées et enregistre des données statistiques anonymes.
cookielawinfo*	1 year	Ce cookie garantit que notre notification de cookies fonctionne correctement. Vos préférences sont enregistrées dans un cookie afin que nous sachions quand vous nous rendrez visite la prochaine fois.
IDE	1 year 24 days	Les cookies Google DoubleClick IDE sont utilisés pour stocker des informations sur la façon dont l'utilisateur utilise le site web afin de lui présenter des annonces pertinentes et en fonction de son profil.
itdaily_lang	1 year	Ce cookie est nécessaire pour masquer la notification du pays. La notification du pays est affichée lorsque vous visitez le site web à partir d'un pays. C'est pourquoi nous proposons également une édition spécifique de ITdaily. Vous pouvez masquer cette notification grâce à ce cookie.
itdaily_theme	1 year	Ce cookie enregistre si vous voulez activer la version darkmode ou normale.
PHPSESSID	1 day	Ce cookie provient d'applications PHP standard. Le cookie est utilisé pour stocker et identifier une session d'utilisateur. Il s'agit d'un cookie de session qui est immédiatement supprimé lorsque vous fermez le navigateur.
test_cookie	15 minutes	Le test_cookie est défini par doubleclick.net et est utilisé pour déterminer si le navigateur de l'utilisateur prend en charge les cookies.
viewed_cookie_policy	1 year	Ce cookie garantit le bon fonctionnement de notre notification de cookies. Vos préférences sont enregistrées dans un cookie afin que nous puissions connaître votre prochaine visite.
wordpress_*	30 days	Wordpress utilise plusieurs cookies pour que le site web fonctionne correctement, par exemple pour permettre à l'équipe éditoriale de se connecter.
wp-*	1 day	Wordpress utilise plusieurs cookies pour que le site web fonctionne correctement, par exemple pour permettre à l'équipe éditoriale de se connecter.

Cookie	Duration	Description
_li_id.*	2 years	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
_li_ses.*	30 minutes	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
itdaily_views	1 hour	Ce cookie est utilisé par notre propre système pour suivre les utilisateurs sur le site web.

Cookie	Duration	Description
_li_id.*	2 years	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
_li_ses.*	30 minutes	Ce cookie est utilisé par Leadinfo pour garder la trace des profils qui visitent ITdaily. Nous ne pouvons pas identifier les visiteurs individuels sur la base de ces statistiques.
VISITOR_INFO1_LIVE	5 months 27 days	Un cookie défini par YouTube pour mesurer la bande passante qui détermine si l'utilisateur obtient la nouvelle ou l'ancienne interface du lecteur.
YSC	session	Le cookie YSC est défini par YouTube et est utilisé pour suivre les vues des vidéos intégrées dans les pages YouTube.

Cloudflare désactive les robots d’indexation en un seul clic

Robots.txt

Empreinte digitale

actualités liées

newsletter