O Ato de IA da UE e a Conformidade com os Direitos Autorais
Um dos principais desafios no treinamento de modelos de inteligência artificial generativa é garantir a conformidade com as leis de direitos autorais. Modelos de linguagem grandes, como o ChatGPT ou o Google DeepMind, requerem grandes quantidades de texto, imagens e outros dados para treinamento a fim de gerar respostas de alta qualidade. É de conhecimento geral que esses conjuntos de dados são frequentemente compilados através de web scraping, utilizando conteúdo disponível publicamente.
O Ato de IA da UE reforça a necessidade de conformidade com os direitos autorais, especialmente no que diz respeito aos modelos de linguagem grandes (LLMs). O considerando 105 destaca que o desenvolvimento e o treinamento de modelos de IA de propósito geral requerem acesso a extensas quantidades de texto, imagens, vídeos e outros dados. O ato reconhece que “técnicas de mineração de texto e dados podem ser usadas extensivamente neste contexto para a recuperação e análise de tal conteúdo, que pode ser protegido por direitos autorais e direitos relacionados. Qualquer uso de conteúdo protegido por direitos autorais requer a autorização do titular dos direitos concernente, a menos que exceções e limitações relevantes de direitos autorais se apliquem.”
O ato define modelos de IA de propósito geral como aqueles treinados em grandes conjuntos de dados que exibem uma generalidade significativa, realizando uma ampla gama de tarefas distintas. Exemplos podem incluir o ChatGPT ou o PaLM do Google — manipulando geração de código, tradução e explicação de piadas — ou o Claude da Anthropic — capaz de criação de conteúdo, análise de visão e resposta a perguntas complexas.
Diretivas do DSM sobre Treinamento de IA e Direitos Autorais
A diretiva do Mercado Único Digital (DSM) introduziu uma exceção de mineração de texto e dados à proteção de direitos autorais. Embora a mineração de texto e dados cubra uma ampla gama de análises computacionais, incluindo indexação de mecanismos de busca, ela também se estende ao scraping de dados para treinamento de IA. A diretiva, no entanto, foi promulgada em 2019 — antes do surgimento de ferramentas de IA generativa — portanto, os legisladores podem não ter antecipado completamente o impacto dos LLMs sobre as obras protegidas online.
Geralmente, o scraping de conteúdo protegido por direitos autorais para treinamento de IA é permitido sob a diretiva DSM, desde que os titulares dos direitos não tenham explicitamente optado por não participar. Os titulares dos direitos podem reservar seus direitos usando meios legíveis por máquina, ou seja, protocolos técnicos que os web crawlers — bots usados para extrair dados — podem reconhecer e respeitar. O considerando 18 menciona que as reservas legíveis por máquina podem incluir metadados ou termos e condições do site — embora, na prática, a maioria dos crawlers não processe os termos e condições do site. Se um titular de direitos tiver reservado expressamente seus direitos, os provedores de IA de propósito geral devem obter autorização antes de usar o conteúdo para treinamento.
Exigências do Ato de IA para Conformidade com Direitos Autorais em Modelos de IA de Propósito Geral
O Artigo 53 do Ato de IA impõe duas obrigações principais aos provedores de IA de propósito geral.
Primeiro, implementar uma política em conformidade com a legislação de direitos autorais da UE, particularmente identificando e cumprindo a reserva de direitos na diretiva DSM.
A segunda exigência é elaborar e disponibilizar publicamente um resumo suficientemente detalhado sobre o conteúdo utilizado para treinamento. Essa medida de transparência, espera-se, permitirá que os criadores verifiquem se suas obras foram utilizadas no treinamento e se os pedidos de exclusão foram atendidos.
A terceira versão do Código de Prática para IA de Propósito Geral: Seção de Direitos Autorais
O Ato de IA não especifica o que uma política de conformidade com direitos autorais deve conter, mas incentiva os provedores de IA de propósito geral a desenvolver práticas recomendadas da indústria — referidas como códigos de conduta. Em 11 de março, um grupo de especialistas independentes, facilitados pelo Escritório de IA e envolvendo quase 1.000 partes interessadas, representantes de estados membros da UE e observadores internacionais, apresentou a terceira versão do Código de Prática para IA de Propósito Geral.
A seção de direitos autorais do código descreve cinco medidas para garantir a conformidade com a proteção dos direitos autorais sob o Ato de IA. De particular interesse está o compromisso dos signatários em “identificar e cumprir as reservas de direitos ao rastrear a World Wide Web.”
Garantindo que os crawlers respeitem as opt-outs legíveis por máquina
O Código de Prática em rascunho afirma que os signatários devem empregar crawlers que leiam e sigam as instruções expressas de acordo com o Protocolo de Exclusão de Robôs.
O robots.txt é um arquivo usado por sites para controlar como os crawlers da web — incluindo bots de mecanismos de busca — acessam e indexam o conteúdo do site. Ele fornece instruções sobre quais partes de um site não devem ser rastreadas. Atualmente, é o protocolo técnico mais comum usado para reservar os direitos dos criadores. No entanto, é importante lembrar que o robots.txt apenas fornece orientação a bots em conformidade. Ele não bloqueia o acesso a obras protegidas por direitos autorais, mas informa ao crawler se o direito foi reservado ou não.
Nessas circunstâncias, o compromisso dos signatários do código de empregar crawlers que seguirão a orientação é um passo importante. Infelizmente, o conteúdo protegido por direitos autorais ainda pode ser extraído por bots que simplesmente ignoram a bandeira de reserva.
No entanto, deve-se notar que, apesar de o robots.txt ser o protocolo mais respeitado, existem vários outros em uso, e a falta de um padrão unificado para a reserva de direitos não facilita a vida dos provedores de IA de propósito geral.
Em seu artigo “Considerações para Políticas de Conformidade com Opt-Out por Desenvolvedores de Modelos de IA”, foram fornecidas percepções sobre os tipos existentes de protocolos, que podem ser divididos em duas categorias principais — protocolos baseados em localização e protocolos baseados em unidade.
Os protocolos baseados em localização — como o robots.txt, ai.txt, o Protocolo de Reserva TDM, tags de metadados ou cabeçalhos http — são aplicados pelos proprietários de domínio a todo o conteúdo no site e, infelizmente, podem bloquear também a indexação de mecanismos de busca.
Os protocolos baseados em unidade permitem a marcação de uma obra específica por meio de tags de metadados informando ao crawler sobre o desejo do criador de optar por não participar do treinamento de IA. Por exemplo, uma imagem é etiquetada com metadados que incluem detalhes sobre a origem do conteúdo e quaisquer restrições de uso — como “não para treinamento de IA.” Em contraste com os sinais baseados em localização, as tags de metadados podem ser anexadas a uma obra específica, o que proporciona ao criador individual mais controle.
Para enfrentar o desafio acima, o código contém um compromisso adicional de fazer esforços para identificar protocolos que tenham resultado de um processo de padronização intersetorial — visando alcançar um protocolo unificado para a reserva de direitos — ou que sejam “de ponta e amplamente adotados pelos titulares de direitos.” Isso significa que mecanismos de opt-out menos comuns ou recém-introduzidos podem não ser seguidos, a menos que se tornem padrões da indústria. Embora a diretiva DSM não limite os meios legíveis por máquina que podem ser usados para expressar a exclusão, a proposta de seguir protocolos “de ponta” pode contribuir para um processo de padronização mais rápido.
O código incentiva os signatários a apoiar esforços de padronização e a participar de discussões para desenvolver padrões apropriados legíveis por máquina para expressar os direitos de reserva. Esse compromisso será um grande passo em frente, apoiando os esforços tão esperados para projetar e implementar um protocolo unificado para a reserva de direitos autorais sob a diretiva DSM.
Riscos de um protocolo unificado para a reserva de direitos
Embora um protocolo de opt-out unificado possa ser um sonho realizado para grandes provedores de IA, não está isento de riscos potenciais. Se os provedores de IA de propósito geral seguirem apenas protocolos amplamente adotados, outros — muitas vezes soluções muito boas — podem cair fora do mercado. Isso também pode levar a uma escolha limitada para os autores que podem preferir usar uma opção diferente para proteger suas obras.
Os requisitos de direitos autorais do Ato de IA também têm um efeito extraterritorial. Assim, a obrigação de ter uma política de conformidade com direitos autorais em vigor se aplicará a qualquer provedor de IA de propósito geral que coloque seu produto no mercado da UE, independentemente de onde o treinamento tenha ocorrido. Espera-se também que esses provedores sigam o protocolo unificado, uma vez acordado.