L’essor de l’intelligence artificielle s’appuie sur l’usage de volumes considérables de données. Pour alimenter leurs modèles d’IA, de nombreux acteurs recourent au web scraping. Si cette pratique offre un accès rapide et massif aux données, elle soulève également de sérieuses interrogations juridiques.
Le web scraping, de quoi s’agit-il ?
Cette méthode consiste à explorer des sites internet à l’aide d’outils automatisés pour extraire des contenus tels que des textes, des images ou des vidéos. Le web scraping est devenu un levier privilégié des concepteurs de modèles d’IA, notamment les grands modèles de langage (LLM) et les modèles d’IA à usage général (GPAI).
Risques juridiques
Si la pratique est courante, sa légalité est soumise à de nombreuses contraintes juridiques : conditions générales d’utilisation des sites web, droit sui generis des bases de données, droit d’auteur, Règlement IA ou encore, Règlement Général sur la Protection des Données (RGPD).
Nous limiterons notre propos au cas du RGPD.
Le RGPD au cœur des enjeux du web scraping
Lorsqu’un outil automatisé collecte sans distinction des données accessibles en ligne, il se peut que la moisson ainsi réalisée comprennent des données à caractère personnel relevant du RGPD. Cette situation soulève plusieurs difficultés : absence de transparence vis-à-vis des personnes concernées, impossibilité d’obtenir leur consentement, non-respect du principe de minimisation des données, ou encore incompatibilité de l’usage fait par le développeur du modèle d’IA avec la finalité initialement déclarée lors de la collecte par l’exploitant du site web visité par le robot de collecte.
Pour toutes ces raisons, les autorités de protection des données considèrent le web scraping comme une pratique problématique lorsqu’il implique des données à caractère personnel. A titre d’exemple, plusieurs autorités de protection des données ont spécifiquement appelé au respect des règles de protection des données dans le cadre des pratiques de scraping sur les réseaux sociaux.
Notre conseil :
Dans le contexte d’un usage de plus en plus étendu de l’IA, la prise en compte des exigences en matière de protection des données est un impératif. Une démarche rigoureuse d’évaluation juridique est donc indispensable avant toute utilisation du web scraping pour alimenter un outil d’IA. Entre autres, il conviendra de justifier la base légale sélectionnée pour la collecte et de bien sélectionner les données collectées afin de respecter les principes de proportionnalité et de minimisation des données.
N’hésitez pas à contacter l’équipe Lexing pour toute question sur ce sujet ou accompagnement dans l’évaluation des pratiques de web scraping et d’entraînement de modèles d’IA.
