Fuori dall’Ombra della Biblioteca: Fair Use e Dati di Addestramento per l’IA
Dalla nascita dei primi Modelli di Linguaggio di Grandi Dimensioni (LLM), è emersa una serie di contenziosi sui diritti d’autore, intrapresi da autori, musicisti e organizzazioni di notizie che affermano che le loro opere siano state utilizzate impropriamente per costruire i più potenti strumenti di IA generativa di oggi. In risposta, le aziende di IA sostengono che tale utilizzo costituisca un fair use non infrangente.
Queste cause legali mirano a un ampio spettro di presunti atti di violazione del copyright. Alcuni contenziosi si concentrano esclusivamente sull’uso non autorizzato di opere come input di addestramento, mentre altri si concentrano sulla capacità del modello di generare output presuntivamente infrangenti, e molti basano la responsabilità su entrambi i comportamenti.
Analisi dei Rulings del 2025
Nel 2025, due sentenze hanno offerto le prime prospettive giuridiche su uno dei lati di questo spettro: se l’uso non autorizzato di opere protette da copyright come “input” di addestramento costituisca un fair use. Sebbene i risultati di questi casi siano stati ampiamente riportati, le sentenze suggeriscono che l’addestramento di modelli di IA generativa su opere protette da copyright possa essere considerato fair use, ma il panorama legale è tutt’altro che definitivo.
Rinfresco sul Fair Use
Per dimostrare la violazione, un attore deve dimostrare che un convenuto ha utilizzato un’opera protetta da copyright in violazione di uno dei diritti esclusivi concessi al proprietario del copyright. Tuttavia, non ogni uso non autorizzato comporta responsabilità. La protezione del copyright incorpora limitazioni, incluso il fair use, progettate per bilanciare gli incentivi creativi con l’interesse pubblico. Storicamente, il fair use ha accolto l’innovazione tecnologica, come i registratori video domestici e i motori di ricerca internet, dove lo sviluppo funzionale richiede la riproduzione di opere protette.
Rulings di Bartz v. Anthropic e Kadrey v. Meta
In Bartz v. Anthropic, il tribunale ha ritenuto che l’utilizzo di opere protette da copyright per addestrare un modello di IA fosse fair use, almeno quando le opere erano state acquisite in modo lecito. Il tribunale ha separato la sua analisi di fair use tra l’atto di addestramento e la retention dei dati. Nella categoria dell’addestramento del modello, i fattori favorevoli al fair use erano il primo e il quarto, mentre la retention di copie ottenute illecitamente non era considerata fair use.
In Kadrey v. Meta, il tribunale ha trovato similmente che la riproduzione non autorizzata di opere protette per addestrare un modello di IA fosse fair use. Anche se Meta ha utilizzato fonti piratate, il tribunale ha concluso che l’atto di scaricare fosse un passo integrale verso un obiettivo trasformativo.
Implicazioni e Rischi
Queste due decisioni suggeriscono una tendenza verso il riconoscimento dell’uso di opere protette come input di addestramento per un modello di IA generativa come fair use. Tuttavia, entrambe le sentenze chiariscono che questa protezione non è assoluta. La responsabilità complessiva rimane per l’acquisizione dei dati utilizzati per addestrare l’IA. I tribunali hanno notato che sebbene la riproduzione per l’addestramento possa essere considerata fair use, la distribuzione di opere protette attraverso reti torrent può comportare una responsabilità separata.
Conclusioni
Le recenti sentenze sul fair use e le accuse di violazione forniscono importanti ma preliminari linee guida su come l’IA generativa interseca il diritto d’autore e i precedenti giuridici. Tuttavia, poiché questa tecnologia e il panorama legale continuano a evolversi, rimangono molteplici vie di responsabilità, a seconda di come i dati di addestramento siano ottenuti, mantenuti e utilizzati nella generazione di output.