Cyberéthique et libertés numériques

Les crawlers des IA menacent les sites scientifiques


Oups

Les crawlers des IA menacent les sites scientifiques

Les bots des entreprises d’IA qui parcourent le web en permanence augmentent la fréquentation des sites de manière vertigineuse. Si tout type de sites est touché, les bases de données ouvertes et les revues scientifiques le sont particulièrement. Le blocage de ces bots n’est pas simple, mais CloudFlare a esquissé récemment une solution.

Les bots des entreprises d’IA continuent, plus que jamais, à parcourir le web en permanence à la recherche d’information à récolter pour entrainer de nouveaux modèles mais aussi pour répondre en direct aux questions de leurs utilisateurs. En avril, Wikimédia alertait sur le sujet.

D’autres sites, moins connus mais avec des contenus tout aussi prisés, en font les frais : ceux qui hébergent des données et des articles scientifiques. Alors que les données de la recherche sont déjà menacées par l’administration Trump, les sites qui les hébergent doivent supporter un nombre important de connexions venant de ces bots.

Des contenus de haute qualité facilement accessibles

En effet, ces sites de revues sont réputés pour la qualité de leurs contenus qui sont, par définition, à la pointe de la connaissance scientifique. De même, les bases de données scientifiques sont des mines d’or de contenus. Elles rassemblent des informations agrégées par des experts d’un sujet, et souvent un tri et des métadonnées précises. Les chercheurs ont, de plus, récemment fait d’énormes efforts en ce qui concerne l’open access. Plus besoin de passer par un paywall ou même un compte pour accéder aux contenus ou aux données scientifiques. Bref, le rêve pour quelqu’un qui veut entrainer un modèle d’IA.

La revue Nature explique, par exemple, que DiscoverLife reçoit actuellement des millions de visites par jour. Jusqu’à récemment, cette base de données qui contient près de 3 millions de photos d’espèces d’animaux et de végétaux n’avaient aucun problème de trafic. Mais depuis le début de cette année, ça devient de plus en plus compliqué. « En février, environ dix millions de visites quotidiennes de robots sur DiscoverLife ont ralenti le site, interrompant de fait l’accès des humains », expliquaient récemment les responsables du site.

De même, en mars, Ian Mulvany, le CTO du British Medical Journal (BMJ, une des revues les plus connues dans le domaine) écrivait que « le problème est réel » et citait une des personnes de son équipe : « malheureusement, le trafic de robots sur les sites web de nos journaux a maintenant dépassé le trafic des utilisateurs réels. Ces robots agressifs tentent de parcourir des sites web entiers en peu de temps, ce qui surcharge nos serveurs web et a un impact négatif sur l’expérience des utilisateurs légitimes. (…) Plus de 100 millions de requêtes de robots proviennent de centres de données de Hong Kong et de Singapour au cours des trois dernières semaines ».

Auprès de Nature, le responsable de l’hébergeur de revues scientifique Highwire Press, Jes Kainth, témoigne aussi d’ « une augmentation considérable de ce qu’ [ils appellent] le trafic des « mauvais robots » ». Le géant de l’édition scientifique Wiley a aussi jugé bon de prendre position sur « le scraping illégal » mis en place par les développeurs d’IA. Ici, l’éditeur met plutôt en avant les problèmes de Copyright.

Un blocage par IP peu efficace

« Nous bloquons désormais plus de 190 millions d’adresses IP signalées par mois, mais les tentatives d’autres robots pour visiter le site restent une menace existentielle pour la plateforme », expliquaient le 20 mai dernier les responsables de DiscoverLife. Et effectivement, la course folle au blocage des blocs d’IP semble être la solution la plus simple et rapide à mettre en place.

Dans son billet de mars, Ian Mulvany expliquait que l’hébergeur de BMJ utilisait les services de blocage de bots de Cloudflare. Il remarquait cependant un problème : « lorsque le blocage du trafic de robots a été activé, il semblait que Cloudflare adoptait une approche large et bloquait presque tout ce qui ressemble à une communication de machine à machine ». Notamment, étaient bloquées l’utilisation des API mis en place ainsi que les méthodes d’authentification par lots d’IP. Plutôt problématique quand une bonne partie des utilisateurs sont des chercheurs dont l’autorisation d’accès est donnée par ce genre de méthodes et qui ont besoin d’accéder aux données sans forcément passer par le web.

Cloudflare propose une authentification des bots

Cloudflare et d’autres ont, depuis, mis en place des systèmes de labyrinthe pour bloquer les bots d’IA. Nous en parlions en avril. Mais, mi-mai, l’entreprise confirmait dans un billet de blog que « les mécanismes actuels de vérification des robots sont cassés ». Cloudflare pousse pour une autre approche : la signature de message HTTP. Stéphane Bortzmeyer explique dans un billet de blog détaille le fonctionnement de cette signature.

Cloudflare ajoute travailler « en étroite collaboration avec l’ensemble de l’industrie pour soutenir ces approches fondées sur des normes » et donne l’exemple d’OpenAI qui a commencé à signer ses demandes avec des signatures de message HTTP. L’entreprise creuse aussi d’autres pistes : « le protocole HTTP n’est pas le seul moyen de transmettre des signatures. Par exemple, un mécanisme qui a été utilisé dans le passé pour authentifier le trafic automatisé contre des points finaux sécurisés est mTLS, la présentation « mutuelle » des certificats TLS ».

L’entreprise pense que ces deux voies sont « des mécanismes prometteurs permettant aux propriétaires de robots et aux développeurs d’agents d’intelligence artificielle de s’authentifier de manière infalsifiable ». L’un de ces systèmes devrait, selon Cloudflare, permettre de remplacer les listes interminables de plages d’adresses IP et la vérification par User-Agent qui sont facilement falsifiables. Reste à voir si l’industrie de l’IA générative, qui jusque-là s’accommode bien de pouvoir moissonner le web sans demander d’autorisation, adoptera massivement ce genre de solutions.

Auteur : Martin Clavey

Aller à la source

Artia13

Bonjour ! Je m'appelle Cédric, auteur et éditeur basé à Arles. J'écris et publie des ouvrages sur la désinformation, la sécurité numérique et les enjeux sociétaux, mais aussi des romans d'aventure qui invitent à l'évasion et à la réflexion. Mon objectif : informer, captiver et éveiller les consciences à travers mes écrits.

Artia13 has 3262 posts and counting. See all posts by Artia13