La CNIL Aclara la Base del GDPR para el Entrenamiento de IA
La Comisión Nacional de Informática y Libertades (CNIL) de Francia ha proporcionado una guía reciente sobre la aplicación del interés legítimo como base legal en el entrenamiento de modelos de inteligencia artificial (IA). Esta aclaración es bienvenida, pero también resalta que aún permanecen sin resolver varios otros problemas regulatorios relacionados con la IA.
Puntos Clave
- La guía de la CNIL establece que el entrenamiento de modelos de IA con datos personales extraídos de fuentes públicas puede ser legal bajo la base del interés legítimo, siempre que se cumplan ciertas condiciones.
- El uso de datos a gran escala no es intrínsecamente ilegal, siempre que se respeten los principios de proporcionalidad y minimización.
- Los derechos de los sujetos de datos pueden ser respetados indirectamente mediante métodos como el filtrado de salidas o la lógica de supresión documentada.
Lo Que Aclara la Guía de la CNIL
La CNIL afirma que el web scraping puede ser permisible, siempre que respete las expectativas de privacidad contextual. Por ejemplo, no se debe realizar scraping en sitios que lo prohíban activamente o en plataformas dirigidas a menores. Además, la CNIL aconseja evitar el uso del interés legítimo para grabaciones de reuniones o seminarios web donde los individuos aparecen o hablan, especialmente si el contenido no fue claramente destinado a su reutilización.
La guía aclara que:
- La utilización de datos a gran escala no es inherentemente ilegal. La CNIL reconoce que conjuntos de datos grandes pueden ser necesarios para un desarrollo efectivo de IA.
- El beneficio para el usuario final puede favorecer al controlador en la evaluación del interés legítimo.
- El riesgo de regurgitación debe ser abordado, no eliminado. Se esperan evidencias de mitigación, como la exclusión de entradas de alto riesgo.
- Se debe preparar documentación en el momento del entrenamiento. La planificación de la evaluación del interés legítimo debe estar completa antes de iniciar el entrenamiento del modelo de IA.
Comparación con Otros Reguladores
Si bien la guía de la CNIL es la más estructurada hasta la fecha, otros organismos de protección de datos están operando con niveles variables de claridad:
- La Oficina del Comisionado de Información del Reino Unido ha reconocido que las reglas existentes del GDPR pueden ser suficientes para justificar el entrenamiento de IA en algunos contextos.
- La Comisión de Protección de Datos de Irlanda se ha centrado principalmente en la fase de implementación, especialmente en la falta de DPIAs o la falta de transparencia en el perfilado.
El Panorama Más Amplio: Incertidumbre Legal Más Allá del GDPR
Aunque la guía de la CNIL ofrece una posición defensible respecto al GDPR para el entrenamiento de modelos, no resuelve otras restricciones legales que limitan la viabilidad de los sistemas de IA, especialmente en entornos comerciales. Por ejemplo:
- Las leyes de derechos de autor y bases de datos siguen siendo vinculantes. El contenido accesible públicamente puede estar protegido por derechos de autor o derechos de bases de datos.
- Los términos contractuales restringen el acceso y la reutilización. Muchas plataformas prohíben el scraping o la reutilización comercial de contenido a través de sus términos de servicio.
Prioridades Operativas y Posicionamiento Legal
Para los equipos legales, de privacidad y de productos que navegan por estos regímenes superpuestos, las prioridades no deben ser reinventar la gobernanza, sino aplicar un juicio estructurado en momentos clave:
- Utilizar la guía de la CNIL para reforzar la gobernanza de privacidad existente.
- La conformidad en la etapa de entrenamiento no permite el uso comercial.
- La implementación sigue siendo una capa de cumplimiento separada.
- Trabajar de manera interdisciplinaria y eficiente.
A pesar de la claridad proporcionada, las organizaciones deben resistir la tentación de ver la conformidad en la etapa de entrenamiento del GDPR como un problema resuelto. La interpretación variará entre los estados miembros y la aplicación se centrará probablemente en los resultados finales, especialmente en casos de uso sensibles.