Nouvelles exigences de conformité pour les modèles d’IA en Europe

Directives sur la loi sur l’IA de l’UE : Précisions sur le Copyright

Le projet de code de pratique (CoP) publié le 11 mars par le Bureau de l’IA de l’UE concernant les obligations des fournisseurs de modèles d’IA à usage général (GPAI) est considéré comme étant plus réalisable que ses prédécesseurs. Ce code doit être finalisé d’ici le 2 mai, laissant aux fournisseurs GPAI seulement trois mois avant que leurs obligations n’entrent en vigueur le 2 août.

Les enjeux sont importants : un manquement à ces obligations pourrait entraîner des amendes pouvant atteindre 3% du chiffre d’affaires mondial annuel du fournisseur ou 15 millions d’euros (soit environ 16,2 millions de dollars), le montant le plus élevé prévalant, et même une interdiction de l’UE sur le modèle.

Plus de 1 000 parties prenantes ont collaboré avec le Bureau de l’IA de l’UE sur ce code de pratique, et cet article donne un aperçu de l’état des obligations liées au copyright dans ce cadre.

Pratique et Conformité

La loi sur l’IA de l’UE a introduit le concept de CoP comme un guide détaillé pour aider les fournisseurs de modèles GPAI à répondre à leurs obligations. Bien que l’adhésion au CoP soit volontaire, elle démontre la conformité avec la loi jusqu’à ce que des « normes harmonisées » soient établies. Alternativement, les fournisseurs peuvent choisir d’autres moyens de conformité, sous réserve d’une évaluation individuelle par la Commission européenne.

Le troisième projet de CoP assouplit les mesures liées au copyright, qui reposent désormais sur le principe selon lequel la conformité doit être commensurable et proportionnée à la taille et à la capacité de chaque fournisseur.

Politique de Copyright

Les fournisseurs de modèles GPAI doivent mettre en place une politique pour se conformer à la loi européenne sur le copyright. Les spécifications du CoP exigent :

Les fournisseurs doivent assigner des responsabilités internes en matière de conformité, et un document unique doit décrire tous les engagements liés au copyright du fournisseur. Il est conseillé de publier un résumé de politique à jour.
Les fournisseurs doivent atténuer le risque qu’un système d’IA en aval, dans lequel le modèle est intégré, génère à plusieurs reprises des résultats portant atteinte au copyright. Ils doivent faire des « efforts raisonnables » pour empêcher la mémorisation par le modèle de contenu d’entraînement pouvant entraîner de tels résultats. De plus, ils doivent interdire l’utilisation contraire au copyright du modèle dans leur politique d’utilisation et leurs conditions générales, avec une exception pour les modèles open-source.
Le premier projet de CoP stipulait qu’en cas de modification et de perfectionnement, les obligations d’un fournisseur ne concernaient que ces actions. Bien que cela ait été retiré du texte du CoP, cette déclaration reste dans les FAQ du Bureau de l’IA concernant les modèles GPAI.

Options de Non-Participation et Entraînement

Les fournisseurs doivent identifier et se conformer aux réservations de droits lisibles par machine, ou options de non-participation, des titulaires de droits pour l’utilisation de leur contenu pour le text and data mining qui serait autrement autorisé par l’exception de copyright TDM de l’UE. Un considérant appelle à ce que cette obligation s’applique à l’entraînement d’IA effectué à l’extérieur de l’UE ainsi qu’à l’intérieur de l’UE.

Les spécifications du CoP stipulent que pour le text et data mining de matériel légalement accessible :

Conformément à l’exception de copyright TDM, les fournisseurs ne doivent pas contourner les mesures technologiques efficaces (par exemple, les paywalls) lors de l’exploration du web eux-mêmes ou par l’intermédiaire de tiers.
Les fournisseurs doivent faire des « efforts raisonnables » pour exclure les « domaines de piraterie » de leur exploration.
Lorsque les fournisseurs utilisent du matériel d’entraînement qu’ils n’ont pas exploré eux-mêmes (c’est-à-dire des ensembles de données tiers) et pour lequel ils n’ont pas obtenu l’autorisation du titulaire des droits, ils doivent faire des « efforts raisonnables » pour obtenir des informations sur le respect des réservations de droits dans le Robot Exclusion Protocol (robots.txt).

Conclusion

Bien que le CoP ne résolve pas toutes les incertitudes juridiques et techniques pour la conformité des modèles GPAI sous la loi, il offre un premier chemin structuré vers la conformité. Étant donné que la loi sur l’IA de l’UE stipule uniquement que les fournisseurs doivent mettre en œuvre une politique pour se conformer à la loi sur le copyright de l’UE et à l’exception TDM de l’UE, le CoP apporte une grande quantité de spécifications.

Un défi clé reste de définir ce que les fournisseurs de modèles doivent faire pour empêcher la génération de résultats portant atteinte au copyright par des systèmes en aval. La dernière version s’est éloignée du terme « surajustement », qui a été critiqué comme étant une simple description technique, mais l’approche actuelle – prévenir la mémorisation répétée du contenu d’entraînement dans les résultats – demeure ambiguë.

Les parties prenantes sont invitées à soumettre leurs derniers retours avant le 30 mars et à participer aux dernières discussions. C’est donc la dernière occasion d’être entendu.