La loi sur l’IA de l’UE et la conformité en matière de droits d’auteur

Un défi majeur dans la formation des modèles d’intelligence artificielle générative est d’assurer la conformité avec les lois sur les droits d’auteur. Les grands modèles de langage, tels que ChatGPT ou Google DeepMind, nécessitent d’énormes quantités de textes, d’images et d’autres données pour être formés afin de générer des réponses de haute qualité. Il est bien connu que ces ensembles de données sont souvent compilés par web scraping, utilisant du contenu disponible publiquement.

La loi sur l’IA de l’UE renforce la nécessité de la conformité en matière de droits d’auteur, en particulier concernant les LLMs (modèles de langage de grande taille). Le considérant 105 souligne que le développement et la formation de modèles d’IA à usage général nécessitent l’accès à d’importantes quantités de textes, d’images, vidéos et d’autres données. La loi reconnaît que les techniques d’extraction de texte et de données peuvent être largement utilisées dans ce contexte pour la récupération et l’analyse de contenus qui peuvent être protégés par des droits d’auteur et des droits connexes. Toute utilisation de contenu protégé par des droits d’auteur nécessite l’autorisation du détenteur de droits concerné, à moins que des exceptions et des limitations pertinentes ne s’appliquent.

La loi définit les modèles d’IA à usage général comme ceux formés sur de grands ensembles de données qui présentent une généralité significative, exécutant une large gamme de tâches distinctes. Des exemples peuvent inclure ChatGPT ou PaLM de Google — capables de générer du code, de traduire et d’expliquer des blagues — ou encore Claude d’Anthropic — capable de création de contenu, d’analyse visuelle et de réponse à des questions complexes.

Les dispositions de la directive DSM sur la formation de l’IA et les droits d’auteur

La directive DSM a introduit une exception d’extraction de texte et de données à la protection des droits d’auteur. Bien que l’extraction de texte et de données couvre un large éventail d’analyses computationnelles, y compris l’indexation des moteurs de recherche, elle s’étend également à l’extraction de données pour la formation de l’IA. Cependant, la directive, promulguée en 2019 — avant la montée des outils d’IA générative —, n’a peut-être pas pleinement anticipé l’impact des LLMs sur les œuvres protégées en ligne.

En général, le web scraping de contenu protégé par des droits d’auteur pour la formation de l’IA est permis en vertu de la directive DSM, à condition que les détenteurs de droits n’aient pas explicitement choisi de se retirer. Les détenteurs de droits peuvent réserver leurs droits en utilisant des moyens lisibles par machine, à savoir des protocoles techniques que les crawlers web — bots utilisés pour extraire des données — peuvent reconnaître et respecter. Le considérant 18 mentionne que les réservations lisibles par machine peuvent inclure des métadonnées ou des conditions d’utilisation du site web — bien que, dans la pratique, la plupart des crawlers ne traitent pas les conditions d’utilisation du site. Si un détenteur de droits a expressément réservé ses droits, les fournisseurs d’IA à usage général doivent obtenir une autorisation avant d’utiliser le contenu pour la formation.

Exigences de la loi sur l’IA pour la conformité aux droits d’auteur dans les modèles d’IA à usage général

L’article 53 de la loi sur l’IA impose deux obligations clés aux fournisseurs d’IA à usage général.

Tout d’abord, mettre en œuvre une politique conforme à la loi sur les droits d’auteur de l’UE, en identifiant et en respectant la réservation des droits dans la directive DSM.

La deuxième exigence est de rédiger et de rendre publiquement disponible un résumé suffisamment détaillé concernant le contenu utilisé pour la formation. Cette mesure de transparence, espérons-le, permettra aux créateurs de vérifier si leurs œuvres ont été utilisées dans la formation et si les demandes de retrait ont été respectées.

Le troisième projet du Code de Pratique pour l’IA à usage général : section sur les droits d’auteur

La loi sur l’IA ne précise pas ce que doit contenir une politique de conformité en matière de droits d’auteur, mais encourage les fournisseurs d’IA à usage général à élaborer des meilleures pratiques de l’industrie — appelées codes de conduite. Le 11 mars, un groupe d’experts indépendants, facilité par le Bureau de l’IA et impliquant près de 1 000 parties prenantes, représentants des États membres de l’UE et observateurs internationaux, a soumis le troisième projet du Code de Pratique pour l’IA à usage général.

La section sur les droits d’auteur du code décrit cinq mesures pour garantir la conformité à la protection des droits d’auteur en vertu de la loi sur l’IA. D’un intérêt particulier est l’engagement des signataires à « identifier et respecter les réservations de droits lors du crawl du World Wide Web. »

Assurer que les crawlers respectent les options de retrait lisibles par machine

Le projet de Code de Pratique stipule que les signataires doivent employer des crawlers qui lisent et suivent les instructions exprimées conformément au Robot Exclusion Protocol.

Le fichier robots.txt est utilisé par les sites web pour contrôler l’accès et l’indexation du contenu par les crawlers web — y compris les bots de moteurs de recherche. Il fournit des instructions sur les parties d’un site web qui ne devraient pas être crawlées. Actuellement, c’est le protocole technique le plus courant utilisé pour réserver les droits des créateurs. Cependant, il est important de se rappeler que le robots.txt ne bloque pas l’accès aux œuvres protégées par des droits d’auteur, mais informe le crawler si le droit d’auteur a été réservé ou non.

Dans ces circonstances, l’engagement des signataires du code d’employer le crawler qui suivra les directives est une étape importante. Malheureusement, le contenu protégé par des droits d’auteur peut toujours être extrait par des bots qui ignorent simplement le drapeau de réservation.

Néanmoins, il convient de noter que, bien que le robots.txt soit le protocole le plus respecté, plusieurs autres sont en usage, et l’absence d’une norme unifiée pour la réservation des droits ne facilite pas la tâche des fournisseurs d’IA à usage général.

Dans son article « Considérations pour les politiques de conformité au retrait par les développeurs de modèles d’IA », des idées ont été fournies sur les types de protocoles existants, qui pourraient être divisés en deux catégories principales — protocoles basés sur la localisation et protocoles basés sur l’unité.

Les protocoles basés sur la localisation — comme robots.txt, ai.txt, le TDM Reservation Protocol, les balises méta ou les en-têtes http — sont appliqués par les propriétaires de domaines à tout le contenu du site web, et peuvent malheureusement également bloquer l’indexation par les moteurs de recherche.

Les protocoles basés sur l’unité permettent de taguer une œuvre spécifique par des balises de métadonnées informant le crawler du souhait du créateur de se retirer de la formation de l’IA. Par exemple, une image est taguée avec des métadonnées qui incluent des détails sur l’origine du contenu et les restrictions d’utilisation — comme « non pour la formation de l’IA ». Contrairement aux signaux basés sur la localisation, les balises de métadonnées peuvent être attachées à une œuvre spécifique, ce qui donne au créateur individuel plus de contrôle.

Pour relever le défi ci-dessus, le code contient un engagement supplémentaire à faire des efforts pour identifier les protocoles qui ont soit résulté d’un processus de normalisation intersectoriel — visant à atteindre un protocole unifié pour la réservation des droits — soit qui sont « à la pointe de la technologie et largement adoptés par les détenteurs de droits ». Cela signifie que les mécanismes de retrait moins courants ou nouvellement introduits peuvent ne pas nécessairement être suivis, sauf s’ils deviennent des normes de l’industrie. Bien que la directive DSM ne limite pas les moyens lisibles par machine pouvant être utilisés pour exprimer le retrait, la proposition de suivre des protocoles « à la pointe de la technologie » pourrait contribuer à un processus de normalisation plus rapide.

Le code encourage les signataires à soutenir les efforts de normalisation et à engager des discussions pour développer des normes appropriées et lisibles par machine pour exprimer les droits de réservation. Cet engagement serait un grand pas en avant, soutenant les efforts tant attendus de concevoir et de mettre en œuvre un protocole unifié pour réserver les droits d’auteur en vertu de la directive DSM.

Risques d’un protocole unifié pour la réservation des droits

Bien qu’un protocole de retrait unifié puisse être un rêve devenu réalité pour les grands fournisseurs d’IA, il n’est pas sans risques potentiels. Si les fournisseurs d’IA à usage général ne suivent que les protocoles largement adoptés, d’autres — souvent très bonnes solutions — pourraient disparaître du marché. Cela pourrait également entraîner un choix limité pour les auteurs qui pourraient préférer utiliser une option différente pour protéger leurs œuvres.

Les exigences en matière de droits d’auteur de la loi sur l’IA ont également un effet extraterritorial. Ainsi, l’obligation d’avoir une politique de conformité en matière de droits d’auteur s’appliquera à tout fournisseur d’IA à usage général mettant son produit sur le marché de l’UE, peu importe où la formation a eu lieu. Ces fournisseurs pourraient également être tenus de suivre le protocole unifié, une fois convenu.

Articles

Impact de la loi européenne sur l’IA sur la gouvernance des entreprises

Ce projet de recherche examine comment la Loi sur l'intelligence artificielle de l'UE catalyse une transformation systémique dans les cadres de gouvernance et de responsabilité des entreprises. Il met...

Réveil Cybernétique : L’Impact de l’IA sur la Sécurité

Les organisations doivent prendre en compte que l'IA transforme rapidement le paysage des menaces en cybersécurité, tout en offrant des opportunités pour améliorer la détection et la réponse...

Vers une législation éclairée sur l’IA en Thaïlande

M. Sak déclare que la législation à venir vise à protéger les utilisateurs des risques potentiels liés à l'IA et à supprimer les obstacles juridiques que les lois existantes ne peuvent pas traiter. La...

Texas renforce la gouvernance de l’IA avec des lois ciblées pour le secteur de la santé

Le Texas a franchi une étape importante dans la réglementation de l'intelligence artificielle (IA) avec l'adoption de la Loi sur la gouvernance responsable de l'IA (TRAIGA), qui établit un cadre pour...

Révolutionner la gouvernance de l’IA pour un avenir responsable

Riskonnect a annoncé le lancement de sa nouvelle solution de gouvernance de l'IA, permettant aux organisations de gérer les risques et les obligations de conformité des technologies d'IA de manière...

L’Alignement de l’IA : Vers une Gouvernance Éthique

Gillian K. Hadfield a été nommée professeure distinguée Bloomberg en alignement et gouvernance de l'IA à l'Université Johns Hopkins. Elle se concentre sur la manière dont les systèmes d'IA peuvent...

Les dangers cachés du porno par échange de visages

La technologie de remplacement de visage, alimentée par l'IA, permet aux utilisateurs de remplacer le visage d'une personne dans une vidéo de manière très réaliste. Cependant, son utilisation abusive...

L’Illusion Bruxelloise : L’Acte sur l’IA de l’UE et son Impact International

L'Acte sur l'IA de l'UE projette un modèle réglementaire qui, bien qu'influant sur d'autres juridictions, révèle un mirage en raison des valeurs légales et culturelles distinctes qui façonnent la...

L’Illusion Bruxelloise : L’Acte sur l’IA de l’UE et son Impact International

L'Acte sur l'IA de l'UE projette un modèle réglementaire qui, bien qu'influant sur d'autres juridictions, révèle un mirage en raison des valeurs légales et culturelles distinctes qui façonnent la...