Il Regolamento sull’IA dell’UE e la Conformità al Copyright
Una delle sfide principali nella formazione dei modelli di intelligenza artificiale generativa è garantire la conformità alle leggi sul copyright. I modelli di linguaggio di grandi dimensioni, come ChatGPT o Google DeepMind, richiedono quantità enormi di testi, immagini e altri dati per l’addestramento al fine di generare risposte di alta qualità. Non è un segreto che questi dataset siano spesso compilati attraverso il web scraping, utilizzando contenuti disponibili pubblicamente.
Il Regolamento sull’IA dell’UE rinforza la necessità di conformità al copyright, in particolare riguardo ai modelli di linguaggio di grandi dimensioni (LLM). Il considerando 105 sottolinea che lo sviluppo e l’addestramento di modelli di IA di uso generale richiedono l’accesso a vasti quantitati di testi, immagini, video e altri dati. Il regolamento riconosce che “le tecniche di estrazione e analisi dei dati possono essere utilizzate ampiamente in questo contesto per il recupero e l’analisi di contenuti che possono essere protetti da copyright e diritti connessi. Qualsiasi utilizzo di contenuti protetti da copyright richiede l’autorizzazione del titolare dei diritti interessato, a meno che non si applichino eccezioni e limitazioni pertinenti.”
Modelli di IA di Uso Generale
Il regolamento definisce i modelli di IA di uso generale come quelli addestrati su grandi dataset che mostrano una significativa generalità, eseguendo una vasta gamma di compiti distinti. Esempi potrebbero includere ChatGPT o Google PaLM — capaci di generare codice, tradurre e spiegare barzellette — o Claude di Anthropic — in grado di creare contenuti, analizzare visioni e rispondere a domande complesse.
Sebbene il Regolamento sull’IA si riferisca solo ai fornitori di IA di uso generale, altri sviluppatori di IA non sono esentati. Le disposizioni della direttiva su “copyright e diritti connessi nel mercato unico digitale” si applicano comunque a chiunque tenti di utilizzare un’opera protetta da copyright. È importante notare che la direttiva è stata in realtà il primo tentativo legislativo di affrontare le questioni relative al copyright derivanti dall’addestramento dell’IA attraverso il web scraping.
Disposizioni della Direttiva DSM su IA e Copyright
La direttiva DSM ha introdotto un’eccezione per l’estrazione e l’analisi dei dati dalla protezione del copyright. Sebbene l’estrazione e l’analisi dei dati coprano un’ampia gamma di analisi computazionale, inclusa l’indicizzazione dei motori di ricerca, si estende anche all’estrazione di dati per l’addestramento dell’IA. Tuttavia, la direttiva è stata adottata nel 2019 — prima dell’ascesa degli strumenti di IA generativa — quindi i legislatori potrebbero non aver completamente previsto l’impatto degli LLM sulle opere protette da copyright online.
In generale, il web scraping di contenuti protetti da copyright per l’addestramento dell’IA è consentito ai sensi della direttiva DSM, a condizione che i titolari dei diritti non si siano esplicitamente opposti. I titolari dei diritti possono riservare i propri diritti utilizzando mezzi legibili dalla macchina, ossia protocolli tecnici che i crawler web — bot utilizzati per estrarre dati — possono riconoscere e rispettare.
Requisiti del Regolamento sull’IA per la Conformità al Copyright
Articolo 53 del Regolamento sull’IA impone due obblighi chiave ai fornitori di IA di uso generale.
Innanzitutto, implementare una politica in conformità con la legge sul copyright dell’UE, in particolare identificando e rispettando la riserva di diritti nella direttiva DSM.
Il secondo requisito è redigere e rendere pubblicamente disponibile un riepilogo sufficientemente dettagliato sui contenuti utilizzati per l’addestramento. Questa misura di trasparenza, si spera, consentirà ai creatori di verificare se le loro opere sono state utilizzate nell’addestramento e se le richieste di opt-out sono state onorate.
Il Terzo Draft del Codice di Pratica per l’IA di Uso Generale: Sezione Copyright
Il Regolamento sull’IA non specifica cosa debba comportare una politica di conformità al copyright, ma incoraggia i fornitori di IA di uso generale a sviluppare pratiche migliori di settore — chiamate codici di condotta. L’11 marzo, un gruppo di esperti indipendenti, facilitato dall’Ufficio IA e coinvolgendo quasi 1.000 portatori di interesse, rappresentanti degli stati membri dell’UE e osservatori internazionali, ha presentato il terzo draft del Codice di Pratica per l’IA di Uso Generale.
La sezione copyright del codice delinea cinque misure per garantire la conformità alla protezione del copyright ai sensi del Regolamento sull’IA. Di particolare interesse è l’impegno dei firmatari di “identificare e rispettare le riserve di diritti quando si scruta il World Wide Web.”
Garantire che i Crawler Rispettino gli Opt-Out Legibili dalla Macchina
Il Codice di Pratica bozza afferma che i firmatari dovrebbero impiegare i crawler che leggono e seguono le istruzioni espresse in conformità con il Protocollo di Esclusione Robot. Il file robots.txt è utilizzato dai siti web per controllare come i crawler web — inclusi i bot dei motori di ricerca — accedono e indicizzano il contenuto del sito. Attualmente, è il protocollo tecnico più comune utilizzato per riservare i diritti dei creatori. Tuttavia, è importante ricordare che robots.txt fornisce solo indicazioni ai bot conformi. Non blocca l’accesso alle opere protette da copyright, ma informa il crawler se il copyright è stato riservato o meno.
In queste circostanze, l’impegno dei firmatari del codice a impiegare crawler che seguiranno le indicazioni è un passo importante. Purtroppo, il contenuto protetto da copyright può comunque essere estratto da bot che semplicemente ignorano il flag di riserva.
Tuttavia, va notato che, nonostante il robots.txt sia il protocollo più rispettato, ce ne sono diversi altri in uso, e la mancanza di uno standard unificato per la riserva dei diritti non rende la vita più facile per i fornitori di IA di uso generale.
In un suo documento intitolato “Considerazioni sulle politiche di conformità all’opt-out da parte degli sviluppatori di modelli di IA,” sono stati forniti approfondimenti sui tipi esistenti di protocolli, che possono essere suddivisi in due categorie principali — protocolli basati sulla posizione e protocolli basati sull’unità.
I protocolli basati sulla posizione — come robots.txt, ai.txt, il Protocollo di Riserva TDM, i meta tag o gli header http — sono applicati dai proprietari di dominio a tutto il contenuto del sito web e possono, sfortunatamente, bloccare anche l’indicizzazione dei motori di ricerca.
I protocolli basati sull’unità consentono di contrassegnare un’opera specifica tramite tag metadata che informano il crawler della volontà del creatore di opt-out dall’addestramento dell’IA. Ad esempio, un’immagine è contrassegnata con metadata che includono dettagli sull’origine del contenuto e eventuali restrizioni d’uso — come “non per l’addestramento dell’IA.” A differenza dei segnali basati sulla posizione, i tag metadata possono essere attaccati a un’opera specifica, fornendo al singolo creatore un maggiore controllo.
Rischi di un Protocollo Unificato per la Riserva dei Diritti
Sebbene un protocollo di opt-out unificato possa essere un sogno che diventa realtà per i grandi fornitori di IA, non è privo di potenziali rischi. Se i fornitori di IA di uso generale seguono solo protocolli ampiamente adottati, altri — spesso soluzioni molto valide — potrebbero scomparire dal mercato. Questo potrebbe anche portare a una scelta limitata per gli autori che potrebbero preferire utilizzare un’opzione diversa per proteggere le loro opere.
I requisiti sul copyright del Regolamento sull’IA hanno anche un effetto extraterritoriale. Pertanto, l’obbligo di avere una politica di conformità al copyright sarà applicabile a qualsiasi fornitore di IA di uso generale che immette il proprio prodotto sul mercato dell’UE, indipendentemente da dove abbia avuto luogo l’addestramento. Questi fornitori potrebbero anche essere tenuti a seguire il protocollo unificato, una volta concordato.