Hors de l’Ombre de la Bibliothèque : Utilisation Équitable et Données d’Entraînement de l’IA
Depuis le lancement des premiers Modèles de Langage de Grande Taille (LLMs), une vague de litiges en matière de droits d’auteur a été initiée par des auteurs, des musiciens et des organisations de presse, alléguant que leurs œuvres ont été utilisées sans autorisation pour construire les outils d’IA générative les plus puissants d’aujourd’hui. En réponse, les entreprises d’IA ont affirmé que cette utilisation est une utilisation équitable non-infringente.
Ces poursuites ciblent un éventail d’allégations d’infraction au droit d’auteur. Certaines se concentrent uniquement sur l’utilisation non autorisée d’œuvres comme données d’entraînement, d’autres sur la capacité du modèle à générer des résultats prétendument contrefaisants, et beaucoup fondent la responsabilité sur les deux comportements.
Rappel sur l’Utilisation Équitable
Pour prouver l’infraction, un plaignant doit montrer qu’un défendeur a utilisé une œuvre protégée en violation d’un des droits exclus accordés à un propriétaire de droits d’auteur. Cependant, toutes les utilisations non autorisées ne donnent pas lieu à une responsabilité. La protection des droits d’auteur incorpore certaines limitations, y compris l’utilisation équitable, conçues pour équilibrer les incitations créatives avec l’intérêt public.
Historiquement, l’utilisation équitable a permis l’innovation technologique, comme les enregistreurs vidéo domestiques et les moteurs de recherche sur Internet, où le développement fonctionnel nécessite la reproduction d’œuvres protégées. Les tribunaux analysent l’utilisation équitable en évaluant et en équilibrant quatre facteurs statutaires : (1) le but et le caractère de l’utilisation, (2) la nature de l’œuvre originale, (3) la quantité et la substantialité de la portion utilisée, et (4) les effets sur le marché.
Analyse des Cas Judiciaires
Dans deux affaires, les plaignants étaient des groupes d’auteurs qui alléguaient que l’utilisation non autorisée de leurs œuvres littéraires comme « données d’entrée » pour entraîner des modèles d’IA constituait une infraction au droit d’auteur. La question n’était pas de savoir si l’utilisation des œuvres des plaignants par les entreprises d’IA était autorisée, mais plutôt si cette utilisation non autorisée était une utilisation équitable.
Bartz contre Anthropic
Dans cette affaire, le tribunal a jugé que l’utilisation des œuvres protégées par Anthropic pour entraîner un modèle d’IA était une utilisation équitable, au moins lorsque les œuvres étaient légalement obtenues. Le tribunal a séparé son analyse entre l’acte d’entraînement et la rétention des données par Anthropic.
Concernant l’entraînement du modèle, le tribunal a constaté que les premiers et quatrièmes facteurs favorisaient l’utilisation équitable, car la création du modèle était « quintessentiellement transformative » et ne produisait pas de substituts contrefaisants. En revanche, pour la rétention de copies obtenues illégalement, le tribunal a trouvé que tous les facteurs penchaient contre l’utilisation équitable.
Kadrey contre Meta
Dans cette affaire, le tribunal a également jugé que la reproduction non autorisée d’œuvres protégées pour entraîner un modèle d’IA était une utilisation équitable. Le tribunal a noté que, bien que Meta ait téléchargé et reproduit des sources piratées pour certaines de ses données d’entraînement, cela a été considéré comme une étape intégrale vers un objectif transformateur.
Implications et Risques
Ces deux décisions suggèrent une tendance à considérer l’utilisation d’œuvres protégées comme données d’entraînement d’un modèle d’IA générative comme une utilisation équitable. Cependant, ces jugements clarifient que cette protection n’est pas absolue. En plus des faits uniques de chaque cas, il subsiste un risque de responsabilité lié à l’acquisition des données utilisées pour entraîner l’IA.
Conclusion
Ces décisions récentes et les allégations d’infraction fournissent des pistes importantes sur la manière dont l’IA générative croise les lois sur le droit d’auteur et les précédents judiciaires. Toutefois, à mesure que cette technologie évolue, de nombreuses voies de responsabilité demeurent, en particulier selon la manière dont les données d’entraînement sont obtenues, conservées et utilisées pour générer des résultats.