Conformité aux droits d’auteur dans l’ère de l’IA générative

La loi sur l’IA de l’UE et la conformité en matière de droits d’auteur

Un défi majeur dans la formation des modèles d’intelligence artificielle générative est d’assurer la conformité avec les lois sur les droits d’auteur. Les grands modèles de langage, tels que ChatGPT ou Google DeepMind, nécessitent d’énormes quantités de textes, d’images et d’autres données pour être formés afin de générer des réponses de haute qualité. Il est bien connu que ces ensembles de données sont souvent compilés par web scraping, utilisant du contenu disponible publiquement.

La loi sur l’IA de l’UE renforce la nécessité de la conformité en matière de droits d’auteur, en particulier concernant les LLMs (modèles de langage de grande taille). Le considérant 105 souligne que le développement et la formation de modèles d’IA à usage général nécessitent l’accès à d’importantes quantités de textes, d’images, vidéos et d’autres données. La loi reconnaît que les techniques d’extraction de texte et de données peuvent être largement utilisées dans ce contexte pour la récupération et l’analyse de contenus qui peuvent être protégés par des droits d’auteur et des droits connexes. Toute utilisation de contenu protégé par des droits d’auteur nécessite l’autorisation du détenteur de droits concerné, à moins que des exceptions et des limitations pertinentes ne s’appliquent.

La loi définit les modèles d’IA à usage général comme ceux formés sur de grands ensembles de données qui présentent une généralité significative, exécutant une large gamme de tâches distinctes. Des exemples peuvent inclure ChatGPT ou PaLM de Google — capables de générer du code, de traduire et d’expliquer des blagues — ou encore Claude d’Anthropic — capable de création de contenu, d’analyse visuelle et de réponse à des questions complexes.

Les dispositions de la directive DSM sur la formation de l’IA et les droits d’auteur

La directive DSM a introduit une exception d’extraction de texte et de données à la protection des droits d’auteur. Bien que l’extraction de texte et de données couvre un large éventail d’analyses computationnelles, y compris l’indexation des moteurs de recherche, elle s’étend également à l’extraction de données pour la formation de l’IA. Cependant, la directive, promulguée en 2019 — avant la montée des outils d’IA générative —, n’a peut-être pas pleinement anticipé l’impact des LLMs sur les œuvres protégées en ligne.

En général, le web scraping de contenu protégé par des droits d’auteur pour la formation de l’IA est permis en vertu de la directive DSM, à condition que les détenteurs de droits n’aient pas explicitement choisi de se retirer. Les détenteurs de droits peuvent réserver leurs droits en utilisant des moyens lisibles par machine, à savoir des protocoles techniques que les crawlers web — bots utilisés pour extraire des données — peuvent reconnaître et respecter. Le considérant 18 mentionne que les réservations lisibles par machine peuvent inclure des métadonnées ou des conditions d’utilisation du site web — bien que, dans la pratique, la plupart des crawlers ne traitent pas les conditions d’utilisation du site. Si un détenteur de droits a expressément réservé ses droits, les fournisseurs d’IA à usage général doivent obtenir une autorisation avant d’utiliser le contenu pour la formation.

Exigences de la loi sur l’IA pour la conformité aux droits d’auteur dans les modèles d’IA à usage général

L’article 53 de la loi sur l’IA impose deux obligations clés aux fournisseurs d’IA à usage général.

Tout d’abord, mettre en œuvre une politique conforme à la loi sur les droits d’auteur de l’UE, en identifiant et en respectant la réservation des droits dans la directive DSM.

La deuxième exigence est de rédiger et de rendre publiquement disponible un résumé suffisamment détaillé concernant le contenu utilisé pour la formation. Cette mesure de transparence, espérons-le, permettra aux créateurs de vérifier si leurs œuvres ont été utilisées dans la formation et si les demandes de retrait ont été respectées.

Le troisième projet du Code de Pratique pour l’IA à usage général : section sur les droits d’auteur

La loi sur l’IA ne précise pas ce que doit contenir une politique de conformité en matière de droits d’auteur, mais encourage les fournisseurs d’IA à usage général à élaborer des meilleures pratiques de l’industrie — appelées codes de conduite. Le 11 mars, un groupe d’experts indépendants, facilité par le Bureau de l’IA et impliquant près de 1 000 parties prenantes, représentants des États membres de l’UE et observateurs internationaux, a soumis le troisième projet du Code de Pratique pour l’IA à usage général.

La section sur les droits d’auteur du code décrit cinq mesures pour garantir la conformité à la protection des droits d’auteur en vertu de la loi sur l’IA. D’un intérêt particulier est l’engagement des signataires à « identifier et respecter les réservations de droits lors du crawl du World Wide Web. »

Assurer que les crawlers respectent les options de retrait lisibles par machine

Le projet de Code de Pratique stipule que les signataires doivent employer des crawlers qui lisent et suivent les instructions exprimées conformément au Robot Exclusion Protocol.

Le fichier robots.txt est utilisé par les sites web pour contrôler l’accès et l’indexation du contenu par les crawlers web — y compris les bots de moteurs de recherche. Il fournit des instructions sur les parties d’un site web qui ne devraient pas être crawlées. Actuellement, c’est le protocole technique le plus courant utilisé pour réserver les droits des créateurs. Cependant, il est important de se rappeler que le robots.txt ne bloque pas l’accès aux œuvres protégées par des droits d’auteur, mais informe le crawler si le droit d’auteur a été réservé ou non.

Dans ces circonstances, l’engagement des signataires du code d’employer le crawler qui suivra les directives est une étape importante. Malheureusement, le contenu protégé par des droits d’auteur peut toujours être extrait par des bots qui ignorent simplement le drapeau de réservation.

Néanmoins, il convient de noter que, bien que le robots.txt soit le protocole le plus respecté, plusieurs autres sont en usage, et l’absence d’une norme unifiée pour la réservation des droits ne facilite pas la tâche des fournisseurs d’IA à usage général.

Dans son article « Considérations pour les politiques de conformité au retrait par les développeurs de modèles d’IA », des idées ont été fournies sur les types de protocoles existants, qui pourraient être divisés en deux catégories principales — protocoles basés sur la localisation et protocoles basés sur l’unité.

Les protocoles basés sur la localisation — comme robots.txt, ai.txt, le TDM Reservation Protocol, les balises méta ou les en-têtes http — sont appliqués par les propriétaires de domaines à tout le contenu du site web, et peuvent malheureusement également bloquer l’indexation par les moteurs de recherche.

Les protocoles basés sur l’unité permettent de taguer une œuvre spécifique par des balises de métadonnées informant le crawler du souhait du créateur de se retirer de la formation de l’IA. Par exemple, une image est taguée avec des métadonnées qui incluent des détails sur l’origine du contenu et les restrictions d’utilisation — comme « non pour la formation de l’IA ». Contrairement aux signaux basés sur la localisation, les balises de métadonnées peuvent être attachées à une œuvre spécifique, ce qui donne au créateur individuel plus de contrôle.

Pour relever le défi ci-dessus, le code contient un engagement supplémentaire à faire des efforts pour identifier les protocoles qui ont soit résulté d’un processus de normalisation intersectoriel — visant à atteindre un protocole unifié pour la réservation des droits — soit qui sont « à la pointe de la technologie et largement adoptés par les détenteurs de droits ». Cela signifie que les mécanismes de retrait moins courants ou nouvellement introduits peuvent ne pas nécessairement être suivis, sauf s’ils deviennent des normes de l’industrie. Bien que la directive DSM ne limite pas les moyens lisibles par machine pouvant être utilisés pour exprimer le retrait, la proposition de suivre des protocoles « à la pointe de la technologie » pourrait contribuer à un processus de normalisation plus rapide.

Le code encourage les signataires à soutenir les efforts de normalisation et à engager des discussions pour développer des normes appropriées et lisibles par machine pour exprimer les droits de réservation. Cet engagement serait un grand pas en avant, soutenant les efforts tant attendus de concevoir et de mettre en œuvre un protocole unifié pour réserver les droits d’auteur en vertu de la directive DSM.

Risques d’un protocole unifié pour la réservation des droits

Bien qu’un protocole de retrait unifié puisse être un rêve devenu réalité pour les grands fournisseurs d’IA, il n’est pas sans risques potentiels. Si les fournisseurs d’IA à usage général ne suivent que les protocoles largement adoptés, d’autres — souvent très bonnes solutions — pourraient disparaître du marché. Cela pourrait également entraîner un choix limité pour les auteurs qui pourraient préférer utiliser une option différente pour protéger leurs œuvres.

Les exigences en matière de droits d’auteur de la loi sur l’IA ont également un effet extraterritorial. Ainsi, l’obligation d’avoir une politique de conformité en matière de droits d’auteur s’appliquera à tout fournisseur d’IA à usage général mettant son produit sur le marché de l’UE, peu importe où la formation a eu lieu. Ces fournisseurs pourraient également être tenus de suivre le protocole unifié, une fois convenu.

Conformité aux droits d’auteur dans l’ère de l’IA générative

La loi sur l’IA de l’UE et la conformité en matière de droits d’auteur

Les dispositions de la directive DSM sur la formation de l’IA et les droits d’auteur

Exigences de la loi sur l’IA pour la conformité aux droits d’auteur dans les modèles d’IA à usage général

Le troisième projet du Code de Pratique pour l’IA à usage général : section sur les droits d’auteur

Assurer que les crawlers respectent les options de retrait lisibles par machine

Risques d’un protocole unifié pour la réservation des droits

Articles

Renforcer la sécurité des LLM : l’alignement responsable de l’IA

Contrôle des données dans l’ère des clouds IA souverains

L’Alliance Écossaise de l’IA : Vers une Intelligence Artificielle Éthique

UE AI Act : Préparez-vous au changement inévitable

Fiabilité des modèles linguistiques : un défi à relever avec la loi sur l’IA de l’UE

Pause ou avancée : l’avenir de la réglementation de l’IA en Europe

Nouvelles restrictions sur l’IA : impacts et opportunités

Gouvernance de l’IA : Garantir l’éthique et la transparence dans les entreprises modernes

LLMOps : Optimisez l’IA Responsable à Grande Échelle avec Python

Explore

L’ombre de l’IA : Exposer et traiter les préjudices envers les femmes et les filles

Audits Algorithmiques : Un Guide Pratique pour l’Équité, la Transparence et la Responsabilité dans l’IA

Explicabilité de l’IA : un guide pratique pour instaurer la confiance et la compréhension

Gouvernance de l’IA : Transparence, Éthique et Gestion des Risques à l’Ère de l’IA