26/05/2026

Il rischio principale dell’IA generativa: perché le allucinazioni dominano ogni altra falla

In sintesi

Quasi tutte le classifiche elencano da otto a dodici rischi dell’IA generativa. La query ne chiede uno solo, e un rischio davvero domina sul piano strutturale: l’allucinazione, che la terminologia statunitense ufficiale chiama confabulazione.
Il profilo NIST AI 600-1 classifica la confabulazione tra le dodici categorie di rischio specifiche dell’IA generativa e la tratta come proprietà strutturale della tecnologia, non come difetto transitorio.
La ricerca più recente mostra che aumentare il volume dei dati di addestramento non elimina le allucinazioni: GPT-4o e Claude 3.7 producono ancora il 15-20 percento di citazioni inventate nei compiti fattuali, percentuale che sale al 35-55 percento sui temi di nicchia o recenti.
Il regolamento europeo sull’IA disciplina questo rischio in modo diretto attraverso gli articoli 50 e 51-55 (trasparenza, marcatura dei contenuti sintetici, valutazione dei modelli GPAI, riepilogo dei dati di addestramento).
Tutti gli altri rischi comunemente citati (bias, violazione della proprietà intellettuale, fuga di dati, deepfake) amplificano la stessa radice: output il cui statuto epistemico non è verificabile dall’utente.

Perché chiedere un solo rischio è una domanda mal posta e ben posta allo stesso tempo

Digitando «what is one major risk associated with generative AI models» su Google, la pagina dei risultati risponde con elenchi: otto, dieci, dodici rischi. SentinelOne ne elenca dieci. AIMultiple dieci. IBM dieci. ICAEW quattro. La query chiedeva un singolo rischio. I risultati ne propongono molti.

Questo riflesso da listicle non è casuale. Proviene da fornitori di cybersicurezza che vogliono apparire esaustivi e da società di revisione il cui modello di business si fonda sulla vendita di una copertura ampia. Sul piano analitico, si tratta di un errore di categoria. Un elenco di dieci voci dà per scontato che le voci siano commensurabili, che si possano mitigare in modo indipendente e che la gerarchia tra loro sia questione di gusto. Per l’IA generativa nessuna di queste premesse regge.

La MIT Sloan School propone una chiave di lettura più utile: distingue i rischi incorporati, inerenti alla tecnologia, dai rischi messi in atto, dipendenti dal modo in cui un’organizzazione utilizza il sistema (MIT Sloan). I rischi incorporati sopravvivono a qualsiasi scelta di deployment. I rischi messi in atto possono essere neutralizzati con controlli e processi. Il criterio di dominanza per «un rischio principale» diventa quindi: quale rischio è interamente incorporato, non può essere progettato fuori dal modello e deve essere ereditato da qualunque deployment rivolto agli utenti?

Un solo candidato supera la prova. Il bias si può mitigare con la cura dei dati. L’esposizione alla proprietà intellettuale si riduce tracciando i dati di addestramento. Il prompt injection si difende a livello applicativo. Nessuna di queste falle è strutturale nel modello stesso. L’allucinazione sì.

La risposta: l’allucinazione (confabulazione) è il rischio dominante

Nel vocabolario normativo statunitense, la modalità di guasto si chiama confabulazione. Il profilo NIST AI 600-1, pubblicato a luglio 2024 come complemento intersettoriale del AI Risk Management Framework 1.0, individua dodici rischi propri dell’IA generativa o da essa amplificati: informazioni o capacità CBRN, confabulazione, contenuti pericolosi o violenti o di odio, riservatezza dei dati, impatti ambientali, distorsioni dannose e omogeneizzazione, configurazione uomo-IA, integrità dell’informazione, sicurezza dell’informazione, proprietà intellettuale, contenuti osceni o degradanti o abusivi, integrazione della catena del valore (NIST AI 600-1). La confabulazione apre l’elenco non per caso: tutte le altre categorie del profilo interagiscono con essa.

Un articolo arXiv del 2025 firmato da Charles Rathkopf rende esplicita la tesi strutturale: qualunque modello generativo che miri a produrre dati complessi e strutturati prima o poi allucina, e anche un aumento massiccio dei dati di addestramento non farà sparire questi errori (Rathkopf, 2025). Gli errori non vengono ereditati dal corpus di addestramento. Sono prodotti dal modello stesso. Lo stesso lavoro documenta la portata operativa del fenomeno. GPT-4o e Claude 3.7 mostrano ancora il 15-20 percento di tasso di allucinazione sui compiti di citazione fattuale, percentuale che sale al 35-55 percento sui temi di nicchia o recenti. Un’analisi separata su 4.841 articoli accettati a NeurIPS 2025 ha identificato almeno 100 citazioni allucinate confermate su 53 articoli, circa l’1 percento dei lavori accettati in una conferenza con peer review serrato.

Un secondo lavoro del 2025, Beyond Accuracy: Rethinking Hallucination and Regulatory Response in Generative AI, sostiene che i quadri normativi vigenti hanno ereditato una visione troppo ristretta del fenomeno e propone una lettura stratificata: instabilità epistemica all’interno del modello, disorientamento dell’utente all’interfaccia, effetti su scala sociale quando gli output allucinati si propagano nella ricerca, nel giornalismo, nella letteratura scientifica e nel supporto alle decisioni (arXiv 2509.13345). Ogni strato moltiplica l’impatto di quello sottostante.

Perché questo rischio domina? Ogni danno a valle attribuito all’IA generativa presuppone che gli output possano essere accettati per quello che dichiarano di essere. Una causa per diffamazione comincia quando un LLM inventa precedenti penali a una persona reale. Una violazione di obbligo informativo comincia quando un analista incolla cifre allucinate in un bilancio. Un errore clinico nasce quando un assistente di triage fabbrica un’interazione farmacologica. Nessuno di questi eventi accade se l’utente è in grado di verificare l’output, e proprio questa capacità di verifica viene meno per via della confabulazione.

Confabulazione, menzogna e bias: non confondere

La confabulazione è strutturale, non avversariale. Il modello non sta ingannando nessuno. Genera token ad alta plausibilità locale perché è ciò che l’obiettivo di previsione del token successivo premia. Si tratta di qualcosa di diverso dal prompt injection, in cui un soggetto terzo devia deliberatamente il comportamento del modello, e da qualcosa di diverso dal bias, che è proprietà statistica dei dati di addestramento e dei confini decisionali. La confabulazione può coesistere con entrambi. Un modello che confabula può essere distorto e può essere sfruttato, e sia il bias sia lo sfruttamento risultano più efficaci proprio perché l’utente non distingue in modo affidabile l’output autorizzato da quello inventato.

Come i regolatori trattano questo rischio

La convergenza colpisce. Tre dei regimi di governance più influenti (il regolamento europeo sull’IA, il NIST AI 600-1 e la norma ISO/IEC 42001) trattano l’allucinazione, la trasparenza e la verificabilità degli output generativi come vincoli progettuali centrali, pur usando vocabolari diversi.

Regolamento UE sull’IA: obblighi di trasparenza dell’articolo 50

L’articolo 50 del regolamento UE sull’IA fissa obblighi di trasparenza per i sistemi destinati a interagire con persone fisiche e per i sistemi che generano contenuti sintetici. I fornitori devono marcare gli output come generati artificialmente in un formato leggibile dalle macchine. I deployer di sistemi di IA che generano o manipolano contenuti immagine, audio o video tali da costituire deepfake devono dichiarare che il contenuto è stato generato o manipolato artificialmente. Questi obblighi esistono perché il legislatore ha concluso che gli output generativi non si auto-identificano in modo affidabile, ossia la definizione operativa del rischio di confabulazione tradotta in diritto (Parlamento europeo, AI Act).

La Commissione si è espressa senza giri di parole. In forza del Digital Services Act ha inviato richieste formali di informazioni a sei piattaforme online di dimensioni molto grandi e a due motori di ricerca online di dimensioni molto grandi sulle misure di mitigazione dei rischi dell’IA generativa. L’elenco dei rischi nominati dalla Commissione si apre con «le allucinazioni, in cui l’IA fornisce informazioni false», e prosegue con la diffusione virale di deepfake, la manipolazione automatizzata di servizi e processi elettorali, la diffusione di contenuti illeciti, la violazione dei diritti fondamentali e l’esposizione alla proprietà intellettuale (Commissione europea, richiesta GenAI 2024).

Regolamento UE sull’IA: obblighi GPAI (articoli 51-55)

I modelli di IA per finalità generali hanno un capitolo dedicato. L’articolo 51 distingue il GPAI ordinario dal GPAI con rischio sistemico. L’articolo 53 obbliga tutti i fornitori di modelli GPAI a pubblicare una documentazione tecnica, una politica di utilizzo accettabile e un riepilogo sufficientemente dettagliato del contenuto utilizzato per l’addestramento (articolo 53, paragrafo 1, lettera d). L’articolo 55 aggiunge per i modelli con rischio sistemico la valutazione del modello, il test avversariale, la segnalazione di incidenti gravi e i requisiti di cybersicurezza. Il riepilogo dei dati di addestramento e l’obbligo di test avversariale riconoscono che una generazione opaca, in cui gli output non possono essere ricondotti a una provenienza identificabile, costituisce un rischio normativo.

La maggior parte del regolamento si applica dal 2 agosto 2026. I divieti e le disposizioni sull’alfabetizzazione all’IA si applicano dal 2 febbraio 2025.

NIST AI 600-1: la confabulazione tra dodici categorie

Come ricordato sopra, NIST AI 600-1 colloca la confabulazione accanto a CBRN, riservatezza dei dati, distorsioni dannose, integrità dell’informazione, sicurezza dell’informazione, proprietà intellettuale e integrazione della catena del valore. Il profilo propone oltre duecento azioni raccomandate mappate sulle quattro funzioni del AI RMF di base (Govern, Map, Measure, Manage). Per la confabulazione, le azioni raccomandate convergono sull’ancoraggio degli output a fonti verificabili, sulla comunicazione dell’incertezza all’utente e sulla strutturazione della supervisione umana al livello dell’interfaccia.

ISO/IEC 42001: la risposta operativa

ISO/IEC 42001:2023, la prima norma internazionale per i sistemi di gestione dell’IA (AIMS), offre alle organizzazioni un quadro certificabile. La clausola 6.1.3 (trattamento del rischio) e i controlli dell’allegato A su valutazione d’impatto del sistema di IA, qualità dei dati e supervisione umana operazionalizzano la risposta alla confabulazione come controllo documentato. La norma impone valutazioni d’impatto per i sistemi ad alto impatto e richiede l’identificazione, la valutazione e la mitigazione documentate di bias, responsabilità, protezione dei dati, supervisione umana, spiegabilità ed equità (ISO/IEC 42001:2023). Un AIMS certificato fornisce una risposta difendibile alla domanda «come gestite la confabulazione in produzione?» perché la norma trasforma quella domanda in evidenze sottoponibili ad audit, anziché in garanzie estemporanee.

Perché ogni altro rischio comunemente citato dipende da questo

I listicle non sbagliano negli elementi che elencano. Sbagliano nella struttura. Bias, proprietà intellettuale, fuga di dati, deepfake: rischi reali e di rilievo. Sono anche, in modi diversi, derivati dalla lacuna di verificabilità che la confabulazione crea.

Bias

NIST SP 1270 distingue tre strati di bias nell’IA: bias computazionale dai dati e dalle scelte di modellazione, bias sistemico da pattern istituzionali più ampi e bias umano nell’interpretazione e nell’uso (NIST SP 1270). Il bias diventa un problema di deployment quando l’utente non può verificare se un dato output riflette le prove sottostanti o un artefatto statistico. Se non si può capire se la risposta è inventata, non si può nemmeno capire se è distorta. I due modi di guasto condividono lo stesso punto cieco diagnostico.

Proprietà intellettuale e diritto d’autore

I modelli generativi addestrati su materiale protetto possono produrre output che riproducono o parafrasano strettamente la fonte. L’articolo 53, paragrafo 1, lettera d, del regolamento UE sull’IA obbliga i fornitori a pubblicare un riepilogo sufficientemente dettagliato dei dati di addestramento: un controllo di trasparenza che colpisce la stessa radice, ossia output di cui non si può ricostruire la filiazione rispetto al materiale di origine. Il codice di condotta sulla marcatura e l’etichettatura dei contenuti generati da IA si iscrive nella stessa famiglia di controlli di ripristino della provenienza.

Fuga di dati e prompt injection

NIST AI 100-2 E2025, l’aggiornamento 2025 della tassonomia ufficiale statunitense degli attacchi di apprendimento avversariale, classifica gli attacchi sull’IA predittiva e sull’IA generativa. L’OWASP AI Exchange tratta il prompt injection come categoria distinta ma documenta la leva che gli attaccanti ottengono quando riescono a plasmare output generativi che l’utente prenderà come autorevoli. Il prompt injection è pericoloso proprio perché l’utente non dispone di un modo affidabile per distinguere una risposta condizionata dall’attaccante da una legittima, di nuovo il problema della confabulazione espresso in chiave di sicurezza.

Deepfake

I contenuti immagine, audio e video sintetici prodotti dai modelli generativi sono il volto politicamente visibile del rischio di confabulazione. L’articolo 50, paragrafo 4, del regolamento UE sull’IA impone la divulgazione quando il contenuto distribuito costituisce un deepfake. La Commissione europea ha emanato un codice di condotta sulla marcatura e l’etichettatura dei contenuti generati da IA. Non si tratta di interventi normativi distinti rivolti a rischi distinti. È lo stesso intervento applicato a modalità di output diverse.

Cosa significa per chi mette in produzione (il manuale operativo)

Un’organizzazione deployer non può eliminare l’allucinazione a livello di modello. Può però progettare il proprio deployment in modo da intercettare gli output allucinati prima che raggiungano un utente o un regolatore. Quattro strati, ciascuno ancorato a un obbligo o a un controllo nominato:

Valutazione d’impatto del sistema di IA (ISO/IEC 42001 allegato A.6, articolo 27 del regolamento UE sull’IA per l’impatto sui diritti fondamentali). Prima di portare in produzione un sistema generativo su una superficie rivolta all’utente, va documentato quali tipi di output il sistema produrrà, quali categorie di utenti li vedranno e quali sono i punti in cui un output allucinato genererebbe il danno concreto più grave. Questo artefatto diventa la porta d’ingresso per tutti i controlli a valle.
Divulgazione e provenienza dei contenuti (articolo 50 del regolamento UE sull’IA). Gli output generati da macchina vanno marcati come tali. I metadati di provenienza (C2PA o equivalente) vanno applicati sui media sintetici. Quando il modello è distribuito in un’interfaccia conversazionale, la divulgazione deve essere visibile a schermo, non nascosta in un link alle condizioni d’uso.
Verifica umana sugli output ad alto impatto (articolo 14 del regolamento UE sull’IA per i sistemi ad alto rischio, articolo 26 sugli obblighi del deployer; funzione Manage del NIST AI 600-1). Per gli output che influenzano decisioni regolamentate (credito, assicurazione, selezione del personale, triage clinico, consulenza legale), è necessario un revisore umano dotato dell’autorità e della competenza per opporsi. L’efficacia del revisore dipende da strumenti che facciano emergere l’incertezza, non solo il testo.
Registrazione degli incidenti e sorveglianza post-immissione (articolo 72 del regolamento UE sull’IA, clausola 9 di ISO/IEC 42001). Gli eventi di confabulazione vanno tracciati come un fornitore di software traccia gli incidenti di produzione. Frequenza, impatto e mitigazioni vanno seguite. Il registro alimenta a ritroso il prompt engineering, l’ancoraggio per recupero e le scelte di riaddestramento.

Una piattaforma come AI Sigil operazionalizza questi strati come superficie unica di un sistema di gestione: la valutazione d’impatto, il registro di divulgazione, il flusso di supervisione umana e il registro degli incidenti diventano oggetti di prima classe, non artefatti dispersi.

Orizzonte 2026: dove ci porta tutto questo

Quattro segnali convergono sulla seconda metà del 2026.

Primo: la maggior parte del regolamento UE sull’IA si applica dal 2 agosto 2026. Gli obblighi GPAI scattano. Le autorità di vigilanza del mercato negli Stati membri iniziano a sanzionare formalmente fornitori e deployer che non marcano i contenuti sintetici, non documentano i dati di addestramento o non operazionalizzano gli obblighi di gestione del rischio.

Secondo: l’azione della Commissione ai sensi del DSA sui rischi dell’IA generativa, già avviata con le richieste formali del 2024, passa dalla raccolta di informazioni agli obblighi sostanziali. I responsabili compliance delle piattaforme dovranno dimostrare, con misurazioni, che gli output allucinati non influenzano né le conversazioni elettorali né la diffusione di contenuti illeciti.

Terzo: la letteratura accademica sta riposizionando l’allucinazione da curiosità tecnica a problema di sicurezza epistemica. La lettura stratificata proposta da Beyond Accuracy (instabilità epistemica, disorientamento dell’utente, effetti su scala sociale) sta diventando un riferimento per regolatori e auditor.

Quarto: certificazioni e norme stanno colmando il ritardo. Le certificazioni ISO/IEC 42001 scalano. Le organizzazioni che hanno costruito i propri controlli sull’IA generativa attorno al rischio di allucinazione vedranno il lavoro di certificazione reggere sotto qualunque regime arrivi dopo. Quelle che hanno costruito i controlli attorno a un listicle generico dovranno rifare tutto.

Domande frequenti

Che cosa significa «allucinazione» nell’IA generativa? Un’allucinazione è la modalità di guasto per cui un modello generativo produce un output che suona plausibile ma è di fatto errato o inventato. NIST usa il termine tecnico di confabulazione. L’output non è il risultato di un bug software né di un errore di lookup in una base dati. È generato dal modello come ogni altro token: scegliendo token ad alta probabilità locale dato il contesto. Il modello non segnala quali parti del proprio output siano affidabili, e questo è ciò che rende il guasto pericoloso.

L’allucinazione è la stessa cosa del bias? No. Il bias è una proprietà statistica del modo in cui le decisioni di un modello si distribuiscono fra gruppi, contesti o modalità. L’allucinazione è un guasto a livello di contenuto in cui il modello produce informazioni che non corrispondono a nessuna fonte sottostante. I due possono coesistere. Un modello che confabula può essere distorto. Ma la mitigazione del bias (cura dei dati, test di equità, calibrazione) non mitiga la confabulazione, e viceversa.

Le allucinazioni possono essere eliminate addestrando su più dati? No. L’articolo arXiv del 2025 Hallucination, reliability, and the role of generative AI in science è chiaro: persino aumenti massicci dei dati di addestramento non elimineranno l’allucinazione, perché gli errori sono prodotti dal processo di generazione in sé e non semplicemente ereditati dal corpus. Controlli ingegneristici (retrieval-augmented generation, ancoraggio delle uscite, stima dell’incertezza, revisione umana) possono ridurne frequenza e impatto, ma nessuna tecnica attuale rimuove la modalità di guasto al livello del modello.

Cosa dice esattamente il regolamento UE sull’IA in merito alle allucinazioni? Il regolamento non usa la parola allucinazione. Affronta il problema sottostante in modo indiretto attraverso l’articolo 50 (trasparenza e marcatura dei contenuti sintetici), gli articoli 51-55 (obblighi GPAI, compresi il riepilogo dei dati di addestramento, la documentazione tecnica e la valutazione dei modelli sistemici) e l’articolo 26 (responsabilità del deployer). La Commissione europea, nel suo intervento DSA, ha nominato le allucinazioni come prima voce dei rischi dell’IA generativa da mitigare.

Come può un deployer ridurre il rischio di allucinazione in produzione? Quattro strati applicati insieme: una valutazione d’impatto documentata che nomini gli scenari di danno; una marcatura di divulgazione e provenienza sui contenuti in uscita; una verifica umana sugli output che influenzano decisioni regolamentate; e una registrazione degli incidenti collegata alla sorveglianza post-immissione. Nessuna di queste misure elimina l’allucinazione, ma insieme trasformano un’esposizione aperta in un rischio gestito con controlli documentati e una pista d’audit.

Conclusione

La SERP risponde a «what is one major risk associated with generative AI models» con un elenco di dieci. La risposta onesta è una sola. L’allucinazione, che il lessico statunitense chiama confabulazione, è il rischio dominante perché è incorporato nella tecnologia e non messo in atto dal deployer, perché regolatori e norme convergono su di essa, perché la ricerca del 2025 dimostra che la scala non la risolve, e perché tutti gli altri rischi comunemente citati amplificano lo stesso deficit di verificabilità. Il compito di qualsiasi organizzazione che metta in produzione IA generativa consiste nel trasformare quel deficit in una superficie di controllo gestita: valutazione d’impatto, divulgazione, supervisione umana, registrazione degli incidenti. Fatto bene, regge alla scadenza del 2 agosto 2026. Fatto come listicle, non regge.

Per un esame approfondito di come una piattaforma di governance dell’IA strutturi questi controlli, si veda la piattaforma AI Sigil e le risorse Industry Insights.

Marco Conti