El Acta de IA de la UE y el Cumplimiento de Derechos de Autor
Un desafío clave en el entrenamiento de modelos de inteligencia artificial generativa es asegurar el cumplimiento de las leyes de derechos de autor. Los grandes modelos de lenguaje, como ChatGPT o Google DeepMind, requieren vastas cantidades de texto, imágenes y otros datos para su entrenamiento, a fin de generar respuestas de alta calidad. No es un secreto que estos conjuntos de datos a menudo se compilan a través de scraping web, utilizando contenido disponible públicamente.
El Acta de IA de la UE refuerza la necesidad de cumplimiento de derechos de autor, especialmente en lo que respecta a los modelos de lenguaje grande (LLMs). El considerando 105 destaca que el desarrollo y entrenamiento de modelos de IA de propósito general requiere acceso a grandes cantidades de texto, imágenes, videos y otros datos. La ley reconoce que “las técnicas de minería de texto y datos pueden utilizarse ampliamente en este contexto para la recuperación y análisis de dicho contenido, que puede estar protegido por derechos de autor y derechos relacionados. Cualquier uso de contenido protegido por derechos de autor requiere la autorización del titular de derechos correspondiente, a menos que se apliquen excepciones y limitaciones relevantes”.
Definición de Modelos de IA de Propósito General
La ley define los modelos de IA de propósito general como aquellos entrenados en grandes conjuntos de datos que exhiben una generalidad significativa, realizando una amplia gama de tareas distintas. Ejemplos pueden incluir ChatGPT o Google PaLM — que manejan la generación de código, traducción y explicación de chistes — o Claude de Anthropic — capaz de creación de contenido, análisis de visión y respuesta a preguntas complejas.
Aunque el Acta de IA se refiere únicamente a los proveedores de IA de propósito general, otros desarrolladores de IA no están exentos. Las disposiciones de la directiva sobre “derechos de autor y derechos relacionados en el mercado único digital” siguen aplicándose a cualquiera que intente utilizar una obra protegida por derechos de autor. Es importante destacar que la directiva fue en realidad el primer intento legislativo de abordar los problemas de derechos de autor que surgen del entrenamiento de IA a través de scraping web.
Disposiciones de la Directiva DSM sobre Entrenamiento de IA y Derechos de Autor
La directiva DSM introdujo una excepción de minería de texto y datos a la protección de derechos de autor. Mientras que la minería de texto y datos cubre una amplia gama de análisis computacionales, incluyendo la indexación de motores de búsqueda, también se extiende al scraping de datos para entrenamiento de IA. Sin embargo, la directiva se promulgó en 2019 — antes del auge de las herramientas de IA generativa — por lo que los legisladores pueden no haber anticipado completamente el impacto de los LLMs en las obras protegidas en línea.
Generalmente, el scraping de contenido protegido por derechos de autor para el entrenamiento de IA está permitido bajo la directiva DSM, siempre que los titulares de derechos no se hayan excluido explícitamente. Los titulares de derechos pueden reservar sus derechos utilizando medios legibles por máquina, a saber, protocolos técnicos que los crawlers web — bots utilizados para scrapear datos — pueden reconocer y respetar. El considerando 18 menciona que las reservas legibles por máquina pueden incluir metadatos o términos y condiciones del sitio web — aunque, en la práctica, la mayoría de los crawlers no procesan los términos y condiciones de los sitios web. Si un titular de derechos ha reservado expresamente sus derechos, los proveedores de IA de propósito general deben obtener autorización antes de utilizar el contenido para el entrenamiento.
Requisitos de Cumplimiento de Derechos de Autor en Modelos de IA de Propósito General
El Artículo 53 del Acta de IA impone dos obligaciones clave a los proveedores de IA de propósito general. Primero, implementar una política en cumplimiento con la ley de derechos de autor de la UE, identificando y cumpliendo con la reserva de derechos en la directiva DSM. La segunda exigencia es elaborar y hacer públicamente disponible un resumen suficientemente detallado sobre el contenido utilizado para el entrenamiento. Esta medida de transparencia, con suerte, permitirá a los creadores verificar si sus obras han sido utilizadas en el entrenamiento y si se han honrado las solicitudes de exclusión.
El Tercer Borrador del Código de Práctica de IA de Propósito General: Sección de Derechos de Autor
El Acta de IA no especifica lo que debe incluir una política de cumplimiento de derechos de autor, pero alienta a los proveedores de IA de propósito general a desarrollar mejores prácticas de la industria — denominadas códigos de conducta. El 11 de marzo, un grupo de expertos independientes, facilitado por la Oficina de IA e involucrando a casi 1,000 partes interesadas, representantes de estados miembros de la UE y observadores internacionales, presentó el tercer borrador del Código de Práctica de IA de Propósito General.
La sección de derechos de autor del código describe cinco medidas para asegurar el cumplimiento de la protección de derechos de autor bajo el Acta de IA. De particular interés es el compromiso de los signatarios de “identificar y cumplir con las reservas de derechos al rastrear la World Wide Web”.
Asegurando que los Crawlers Respeten las Exclusiones Legibles por Máquina
El borrador del Código de Práctica establece que los signatarios deben emplear los crawlers que lean y sigan las instrucciones expresadas de acuerdo con el Protocolo de Exclusión de Robots. robots.txt es un archivo utilizado por los sitios web para controlar cómo los crawlers web — incluyendo bots de motores de búsqueda — acceden e indexan contenido en el sitio. Proporciona instrucciones sobre qué partes de un sitio web no deben ser rastreadas. Actualmente, es el protocolo técnico más común utilizado para reservar los derechos de los creadores. Sin embargo, es importante recordar que robots.txt solo proporciona orientación a los bots cumplidores. No bloquea el acceso a obras protegidas por derechos de autor, pero informa al crawler si el copyright ha sido reservado o no.
En estas circunstancias, el compromiso de los signatarios del código de emplear el crawler que siga la orientación es un paso importante. Lamentablemente, el contenido protegido por derechos de autor aún puede ser scrapeado por bots que simplemente ignoran la bandera de reserva.
No obstante, cabe señalar que a pesar de que robots.txt es el protocolo más respetado, existen varios otros en uso, y la falta de un estándar unificado para la reserva de derechos no facilita la vida de los proveedores de IA de propósito general.
En su documento “Consideraciones para las políticas de cumplimiento de exclusión por parte de los desarrolladores de modelos de IA”, se proporcionaron ideas sobre los tipos existentes de protocolos, que podrían dividirse en dos categorías principales: protocolos basados en ubicación y protocolos basados en unidades.
Los protocolos basados en ubicación — como robots.txt, ai.txt, el Protocolo de Reserva TDM, etiquetas meta o encabezados http — son aplicados por los propietarios de dominios a todo el contenido en el sitio web y, desafortunadamente, pueden bloquear la indexación de motores de búsqueda también.
Los protocolos basados en unidades permiten etiquetar una obra específica mediante etiquetas de metadatos que informan al crawler del deseo del creador de excluirse del entrenamiento de IA. Por ejemplo, una imagen está etiquetada con metadatos que incluyen detalles sobre el origen del contenido y cualquier restricción de uso — como “no para entrenamiento de IA”. A diferencia de las señales basadas en ubicación, las etiquetas de metadatos pueden adjuntarse a una obra específica, lo que proporciona al creador individual más control.
Para abordar el desafío anterior, el código contiene un compromiso adicional de hacer el mejor esfuerzo para identificar protocolos que hayan resultado de un proceso de establecimiento de estándares interindustriales — con el objetivo de lograr un protocolo unificado para la reserva de derechos — o que sean “de última generación y ampliamente adoptados por los titulares de derechos”. Esto significa que los mecanismos de exclusión menos comunes o recién introducidos pueden no ser seguidos a menos que se conviertan en estándares de la industria. Aunque la directiva DSM no limita los medios legibles por máquina que pueden utilizarse para expresar la exclusión, la propuesta de seguir protocolos “de última generación” puede contribuir a un proceso de estandarización más rápido.
El código alienta a los signatarios a apoyar los esfuerzos de estandarización y participar en discusiones para desarrollar estándares legibles por máquina apropiados para expresar los derechos de reserva. Este compromiso será un gran avance, apoyando los tan esperados esfuerzos para diseñar e implementar un protocolo unificado para reservar derechos de autor bajo la directiva DSM.
Riesgos de un Protocolo Unificado para Reservar Derechos
Aunque un protocolo unificado de exclusión puede ser un sueño hecho realidad para los grandes proveedores de IA, no está exento de riesgos potenciales. Si los proveedores de IA de propósito general solo siguen protocolos ampliamente adoptados, otros — a menudo muy buenas soluciones — pueden caer del mercado. Esto también puede llevar a una elección limitada para los autores que pueden preferir utilizar una opción diferente para proteger sus obras.
Los requisitos de derechos de autor del Acta de IA también tienen un efecto extraterritorial. Como tal, la obligación de tener una política de cumplimiento de derechos de autor en su lugar se aplicará a cualquier proveedor de IA de propósito general que ponga su producto en el mercado de la UE, independientemente de dónde se haya realizado el entrenamiento. Estos proveedores también pueden ser esperados a seguir el protocolo unificado, una vez acordado.