Un guide pour prévenir le scraping Web

Le co-fondateur et PDG de Fingerprint, Dan Pinto, se penche sur le buzz entourant le web scraping, ses implications juridiques et éthiques, ainsi que les stratégies permettant aux entreprises de protéger leurs données contre les robots de scraping.

Le data scraping, en particulier le web scraping, préoccupe les leaders technologiques, les régulateurs et les défenseurs des consommateurs. Les dirigeants d’une douzaine de groupes internationaux de surveillance de la vie privée ont envoyé aux réseaux sociaux une déclarationOuvre une nouvelle fenêtre les exhortant à protéger les informations des utilisateurs contre les robots de grattage. Pendant ce temps, X Corp (anciennement Twitter) a poursuivi quatre individus anonymes pour avoir piraté son site. Google et OpenAI font également face à des poursuites pour violations de la vie privée et des droits d'auteur liées au web scraping.

Le grattage de données n’est pas illégal. C'est une grosse affaire. Les experts s'attendent à ce que la valeur marchande des logiciels de web scraping Opens a new window atteigne près de 1,7 milliard de dollars d'ici 2030, contre 695 millions de dollars en 2022. Le scraping peut être utile, nous permettant de suivre les prix des vols ou de comparer les produits entre les sites. Les entreprises l'utilisent pour recueillir des études de marché ou regrouper des informations. Les grands modèles de langage (LLM) populaires comme Bard et ChatGPT sont formés sur des données récupérées.

Le web scraping existe depuis de nombreuses années. Alors pourquoi est-il devenu un mot à la mode générant autant d’inquiétudes ? Et que peuvent faire les entreprises pour l’empêcher ?

Commençons par les bases. Le Web scraping utilise généralement des robots pour extraire des informations des sites Web. La pratique a de nombreuses applications, des plus utiles aux plus tristement célèbres.

Le web scraping est différent de l’exploration du web. Les moteurs de recherche utilisent des robots d'exploration Web pour indexer les pages Web et fournir des résultats de recherche aux utilisateurs qui suivent un lien vers la source. Le scraping de données consiste à extraire les données de la page et à les utiliser ailleurs. Pour utiliser une analogie : Crawling crée une liste de livres de bibliothèque à consulter. Gratter des copies des livres pour que vous les rapportiez à la maison.

Le scraping IA, en revanche, entre dans une zone grise car il ne renvoie pas de valeur au créateur de contenu d'origine. Plus le flux de valeur est déconnecté de l’auteur original, plus le grattage de données est contraire à l’éthique.

En savoir plus : Lutte contre le phishing et les attaques de compromission des e-mails professionnels

Nous avons probablement tous déjà été témoins du web scraping sur des sites de recherche de voyages, des annonces immobilières et des agrégateurs d'actualités, entre autres. Cependant, la popularité de l’IA générative suscite des inquiétudes au premier plan. Les ingénieurs entraînent ces modèles sur des données, notamment des informations personnelles et des propriétés intellectuelles récupérées sur le Web. Le LLM pourrait reproduire les informations exclusives sans attribuer correctement le créateur. Les experts estiment que ces problèmes de droits d’auteurOuvre une nouvelle fenêtre seront portés devant la Cour suprême des États-Unis.

De plus, les scapers sont de plus en plus avancés. Bien que le scraping ne soit techniquement pas considéré comme une violation de données, de nombreux acteurs malveillants utilisent les informations à des fins malveillantes, notamment :

Même les grattoirs dotés de bonnes intentions créent des effets d’entraînement. Les robots consomment de la bande passante lors de chaque visite d'un site Web, ce qui entraîne des temps de chargement plus longs, des coûts d'hébergement plus élevés ou une interruption du service. Et tout contenu dupliqué qui en résulte peut nuire à l’optimisation des moteurs de recherche.

Les décideurs politiques et les agences gouvernementales réfléchissent actuellement à la manière de mettre en place des garde-fous pour les robots scraping. Cependant, des décisions récentes suggèrent que les réglementations peuvent accorder aux robots l’accès à des informations librement disponibles.

Quelles que soient les questions éthiques, les entreprises peuvent décider quelles données elles souhaitent mettre à disposition.

Bloquer 100 % des tentatives de scraping est impossible. Au lieu de cela, votre objectif devrait être de rendre plus difficile l’accès des scrapers à vos données protégées. Voici comment.

Les robots envoient de nombreux signaux que les utilisateurs humains ne transmettent pas, notamment des erreurs, des remplacements de réseau et des incohérences dans les attributs du navigateur. L’intelligence de l’appareil détecte ces signaux pour distinguer les scrapers potentiels. Les robots agissent également différemment des humains. L'intelligence des appareils permet de surveiller le comportement des visiteurs pour signaler les actions suspectes, comme de nombreuses tentatives de connexion ou des demandes répétées pour les mêmes informations.

En réalité, les entreprises doivent combiner plusieurs fonctionnalités de sécurité pour créer suffisamment d’obstacles aux robots. Avec la sophistication croissante des scrapers, les protections nécessitent des mises à jour fréquentes pour maintenir leur efficacité.

Nouvelles