AI Sotto Attacco: Analizzare le Vulnerabilità e Costruire Apprendimento Automatico Resiliente

L’ascesa dell’intelligenza artificiale porta con sé un immenso potenziale, ma espone anche vulnerabilità che attori malevoli possono sfruttare. Proprio come rafforziamo il software tradizionale contro gli attacchi informatici, dobbiamo comprendere e neutralizzare le minacce che mirano ai meccanismi di apprendimento fondamentali dell’IA. Questa esplorazione approfondisce il mondo dell’apprendimento automatico avversario, svelando le tattiche in evoluzione utilizzate per compromettere sia i sistemi di IA predittiva che generativa. Esaminando le diverse superfici di attacco – dalla manipolazione dei dati alla sovversione del modello – miriamo a illuminare il percorso verso la costruzione di un’IA più resiliente e affidabile per il futuro. Questa analisi esplorerà le sfide, dal bilanciamento dell’accuratezza con la sicurezza alla definizione di standard di valutazione coerenti, per facilitare un’integrazione responsabile dell’IA in tutti i settori.

Ecco le domande di alto livello, separate da ‘

Il campo dell’apprendimento automatico avversario (AML) è emerso per studiare gli attacchi contro i sistemi di apprendimento automatico (ML) che sfruttano la natura statistica, basata sui dati, intrinseca a questi sistemi. L’AML cerca di comprendere le capacità degli attaccanti, identificare quali proprietà del modello o del sistema gli attaccanti mirano a violare e progettare metodi di attacco che espongano le vulnerabilità durante le fasi di sviluppo, addestramento e implementazione del ciclo di vita dell’ML. Si concentra anche sullo sviluppo di algoritmi e sistemi di ML che resistano a queste sfide di sicurezza e privacy, una proprietà nota come robustezza. Ciò comporta la categorizzazione degli attacchi per tipo di sistema di IA (predittivo o generativo), la fase del ciclo di vita dell’ML a cui si mira, gli obiettivi e le finalità dell’attaccante in relazione alle proprietà del sistema che intende violare, le capacità e l’accesso dell’attaccante e la sua conoscenza del processo di apprendimento.

Fondamentale per l’AML è la tassonomia degli attacchi contro l’IA predittiva (PredAI) e i sistemi di IA generativa (GenAI), considerando l’intero sistema di IA, inclusi dati, modelli, addestramento, test, processi di implementazione e i contesti software e di sistema più ampi in cui i modelli sono incorporati. La classificazione degli attacchi rispetto al tipo di sistema di IA e alla fase del ciclo di vita dell’ML consente una comprensione strutturata di come un avversario potrebbe compromettere il sistema. Fondamentalmente, questa tassonomia identifica anche gli obiettivi e le finalità dell’attaccante, in termini di quali proprietà del sistema devono essere violate (ad es. disponibilità, integrità, privacy, uso improprio). La tassonomia è ulteriormente informata dalle capacità e dai livelli di accesso dell’attaccante (ad es. controllo dei dati di addestramento, controllo del modello, accesso alle query) e dalla sua conoscenza del processo di apprendimento, distinguendo tra attacchi white-box, black-box e gray-box in base al livello di informazioni disponibili per l’avversario. Questa classificazione dettagliata fornisce un quadro fondamentale per lo sviluppo di strategie di mitigazione mirate ed efficaci.

Sfide chiave nell’apprendimento automatico avversario

Diverse sfide critiche devono essere affrontate nell’AML. Queste includono la navigazione dei compromessi intrinseci tra gli attributi dell’IA affidabile (come bilanciare l’accuratezza con la robustezza e l’equità), la lotta con le limitazioni teoriche sulla robustezza avversaria che possono limitare l’efficacia delle tecniche di mitigazione e la definizione di metodi di valutazione rigorosi e ben definiti. Il campo richiede aggiornamenti e adattamenti continui man mano che emergono nuovi sviluppi negli attacchi e nelle mitigazioni dell’AML. Pertanto, la standardizzazione della terminologia per i termini AML è essenziale per colmare le differenze tra le comunità di stakeholder e una chiara tassonomia che documenti gli attacchi comuni contro i sistemi PredAI e GenAI è fondamentale per guidare lo sviluppo di metodi di mitigazione efficaci. Affrontare queste sfide costituisce un passo significativo verso la garanzia di un’integrazione responsabile e sicura dei sistemi di IA all’interno di vari settori.

Quali sono le principali classi di attacchi sui sistemi PredAI?

Il panorama degli attacchi contro i sistemi di AI Predittiva (PredAI) può essere ampiamente suddiviso in tre classi principali: elusione, avvelenamento e attacchi alla privacy. Ogni classe rappresenta un distinto obiettivo ostile, colpendo diverse fasi della pipeline di machine learning e sfruttando varie vulnerabilità del sistema. Gli attacchi di elusione mirano a aggirare la funzionalità prevista di un modello implementato tramite la creazione di esempi avversari, input modificati in modo sottile che causano una classificazione errata pur rimanendo impercettibili agli umani. Gli attacchi di avvelenamento, d’altra parte, prendono di mira la fase di addestramento, in cui gli avversari manipolano i dati di addestramento o i parametri del modello per degradare le prestazioni complessive del modello o introdurre specifici comportamenti dannosi. Gli attacchi alla privacy si concentrano sul compromettere la riservatezza dei dati di addestramento o del modello stesso, rivelando potenzialmente informazioni sensibili su individui o algoritmi proprietari. Comprendere queste classi è fondamentale per sviluppare difese robuste e gestire i rischi associati all’implementazione di sistemi PredAI in applicazioni del mondo reale.

All’interno di ciascuna di queste ampie categorie, le specifiche tecniche di attacco sfruttano diverse capacità dell’avversario e sfruttano le vulnerabilità del sistema in varie fasi del ciclo di vita del machine learning. Ad esempio, all’interno degli attacchi di avvelenamento, l’avvelenamento dei dati implica l’inserimento o la modifica di campioni di addestramento, mentre l’avvelenamento del modello si concentra sulla manipolazione diretta dei parametri del modello. Allo stesso modo, gli attacchi alla privacy comprendono una gamma di metodi, tra cui la ricostruzione dei dati, l’inferenza di membership, l’inferenza di proprietà e l’estrazione del modello, ciascuno con obiettivi e conseguenze distinti. Difendersi da questi attacchi richiede un approccio completo che consideri tutte le fasi della pipeline di machine learning e affronti le potenziali vulnerabilità tra i vari componenti del sistema. Ad esempio, la sanificazione dei dati, i metodi di addestramento robusti e i meccanismi di privacy differenziale possono essere impiegati per mitigare gli impatti di diverse classi di attacco.

Inoltre, la classificazione di questi attacchi aiuta a comprendere l’interconnessione delle violazioni della sicurezza. Alcuni attacchi, pur essendo classificati principalmente sotto un obiettivo (ad esempio, l’integrità), potrebbero avere impatti su altre proprietà del sistema come la disponibilità o la privacy. Gli attacchi di avvelenamento backdoor, ad esempio, violano principalmente l’integrità influenzando il modello per classificare erroneamente i campioni contenenti un trigger specifico, ma possono anche interrompere la disponibilità se il trigger è facilmente individuabile o ampiamente applicabile. Comprendere queste relazioni consente alle strategie di difesa di essere multiformi, rafforzando l’affidabilità complessiva del sistema di intelligenza artificiale per mitigare varie categorie di rischio.

Quali sono i metodi per montare e mitigare gli attacchi di evasione sui sistemi PredAI?

Gli attacchi di evasione rappresentano una minaccia critica per i sistemi PredAI, e consistono nella generazione di esempi avversari, ovvero input leggermente modificati progettati per causare una classificazione errata da parte del modello. Gli aggressori raggiungono questo obiettivo aggiungendo perturbazioni a campioni puliti, con l’obiettivo di alterare la previsione del modello mantenendo l’aspetto realistico dell’input modificato. Questi attacchi possono essere ampiamente classificati in base alla conoscenza del sistema da parte dell’aggressore, spaziando da scenari white-box, in cui l’aggressore possiede informazioni complete sull’architettura e sui parametri del modello, a scenari black-box, in cui l’aggressore ha una conoscenza minima e si affida all’accesso alle query del modello. I metodi basati sull’ottimizzazione sono comuni negli attacchi white-box, utilizzando tecniche come la discesa del gradiente per trovare perturbazioni minime ma efficaci. In ambienti black-box, vengono impiegate tecniche come l’ottimizzazione di ordine zero, l’ottimizzazione discreta e la trasferibilità.

Affrontare gli attacchi di evasione richiede un approccio in costante evoluzione, poiché le difese vengono spesso aggirate da attacchi più sofisticati. Le mitigazioni devono essere valutate contro avversari adattivi forti e aderire a rigorosi standard di valutazione. Tre classi principali di difese si sono dimostrate promettenti: il training avversario, che implica l’aumento iterativo dei dati di training con esempi avversari; lo smoothing randomizzato, che trasforma un classificatore in un classificatore robusto certificabile producendo previsioni in condizioni di rumore; e le tecniche di verifica formale, che applicano tecniche di metodo formale per verificare gli output del modello. Nonostante il loro potenziale, questi metodi presentano limitazioni come una ridotta accuratezza o un aumento dei costi computazionali.

Tecniche di Evasione White-Box e Black-Box

Negli attacchi white-box, l’obiettivo dell’attaccante è trovare una perturbazione piccola ma efficace che modifichi l’etichetta di classificazione. Metodi basati sull’ottimizzazione e attacchi realizzabili fisicamente evidenziano la sofisticazione di queste tecniche. I metodi basati sull’ottimizzazione creano attacchi avversari attraverso il metodo L-BFGS e la discesa del gradiente. Questo genera piccole perturbazioni e cambia l’etichetta di classificazione in ciò che l’attaccante desidera. Gli attacchi realizzabili fisicamente sono attacchi che possono essere implementati nel mondo fisico in elementi come segnali stradali o occhiali. Gli esempi avversari possono essere applicabili anche in ambienti black-box. Gli attacchi basati sul punteggio fanno sì che gli attaccanti ottengano i punteggi di confidenza o i logit del modello e possano utilizzare varie tecniche di ottimizzazione per creare gli esempi avversari. Gli attacchi basati sulle decisioni vengono creati in ambienti più restrittivi e l’attaccante ottiene solo le etichette previste finali del modello. La sfida principale con le configurazioni black-box è il numero di query ai modelli ML utilizzati.

Tecniche di Mitigazione

Mitigare gli esempi avversari è una sfida ben nota nella comunità. Gli attacchi esistenti vengono quindi successivamente interrotti da attacchi più potenti. Ciò richiede che le nuove mitigazioni siano valutate rispetto a forti attacchi adattivi. Dalla vasta gamma di difese proposte, tre classi principali di difese si sono dimostrate resilienti. Queste includono l’addestramento avversario utilizzando le etichette corrette, lo smoothing randomizzato utilizzato per trasformare qualsiasi classificatore in un classificatore uniforme robusto certificabile e le tecniche di verifica formale per la robustezza della rete neurale.

Quali sono i metodi per sferrare e mitigare gli attacchi di avvelenamento sui sistemi PredAI?

Gli attacchi di avvelenamento contro i sistemi PredAI possono essere sferrati durante la fase di addestramento, con l’obiettivo di corrompere il processo di apprendimento. Questi attacchi spaziano in un ventaglio di sofisticazione, dal semplice ribaltamento di etichette a complesse tecniche basate sull’ottimizzazione che richiedono diversi gradi di conoscenza del sistema di ML preso di mira. Gli attacchi di avvelenamento dei dati comportano l’introduzione o la modifica di campioni di addestramento, potenzialmente degradando indiscriminatamente le prestazioni del modello (avvelenamento della disponibilità) o incidendo selettivamente su campioni specifici (avvelenamento mirato). L’avvelenamento tramite backdoor complica ulteriormente il panorama incorporando trigger nascosti, causando una classificazione errata solo quando questi trigger sono presenti. Gli attacchi di avvelenamento del modello, prevalenti nell’apprendimento federato e negli scenari di supply chain, manipolano direttamente i parametri del modello, consentendo agli aggressori di influenzare il comportamento appreso complessivo. In ogni caso di attacco, scenari reali, come quelli che prendono di mira l’AI di chatbot e i classificatori di malware, e i sistemi di controllo industriale hanno dimostrato questa tattica.

Le strategie di mitigazione contro gli attacchi di avvelenamento comprendono una serie di misure preventive e interventi reattivi. La sanitizzazione dei dati di addestramento cerca di ripulire in modo proattivo i set di dati identificando e rimuovendo i campioni avvelenati. Gli approcci di addestramento robusto, al contrario, mirano a modificare l’algoritmo di addestramento ML per migliorare la resilienza del modello, incorporando tecniche come i metodi di ensemble e l’ottimizzazione robusta. Gli approcci di ricostruzione del trigger ricostruiscono il trigger della backdoor per localizzare i dati compromessi e detergere neuralmente il modello, e le tecniche di ispezione del modello analizzano i modelli addestrati alla ricerca di indicatori di manomissione. Esistono anche difese certificate, che tentano di combinare metodi di pulizia dei dati con l’aggiunta di rumore. Tecniche come l’analisi forense dei veleni possono inoltre essere utilizzate in caso di un attacco avversario riuscito dopo la distribuzione del modello, al fine di eseguire un’analisi delle cause principali per consentire l’individuazione dell’aggressore. La selezione della giusta mitigazione non è semplice e richiede di bilanciare accuratezza, robustezza e costo computazionale. Inoltre, l’esistenza di Trojan teoricamente non rilevabili pone anche sfide per la gestione del rischio della supply chain AI.

Sfide e direzioni future per la mitigazione

Nonostante i continui progressi nelle strategie di mitigazione, permangono sfide nel difendersi dagli attacchi di avvelenamento. Sofisticati trigger funzionali e semantici possono eludere le tecniche di sanitizzazione e ricostruzione esistenti. I meta-classificatori per prevedere modelli compromessi devono affrontare elevati costi computazionali e la mitigazione degli attacchi alla supply chain rimane complessa quando gli aggressori controllano il codice sorgente. La progettazione di modelli robusti di fronte all’avvelenamento del modello della supply chain rimane una sfida fondamentale. Ci sono ancora sfide in sospeso, come garantire la robustezza dei modelli multi-modali. Inoltre, i compromessi tra diversi attributi e la mancanza di parametri di riferimento affidabili rendono complessa la misurazione dei veri punti di forza delle varie mitigazioni. La progettazione di modelli ML che resistano all’avvelenamento pur mantenendo l’accuratezza rimane un problema aperto.

Quali sono i metodi per sferrare e mitigare gli attacchi alla privacy sui sistemi PredAI?

Gli attacchi alla privacy sui sistemi PredAI mirano a estrarre informazioni riservate o proprietarie, inclusi dettagli sui dati di addestramento, sui pesi del modello o sull’architettura. Questi attacchi possono essere sferrati indipendentemente dal fatto che la riservatezza dei dati sia stata mantenuta durante l’addestramento e si concentrano invece sui compromessi della privacy che si verificano al momento della implementazione. Alcuni importanti metodi di attacco alla privacy includono la ricostruzione dei dati (dedurre il contenuto o le caratteristiche dei dati di addestramento), l’inferenza dell’appartenenza (dedurre se un punto dati specifico è stato utilizzato nell’addestramento) e l’estrazione del modello (rubare l’architettura o i parametri del modello). Gli aggressori conducono questi attacchi sfruttando l’accesso alle query del modello, uno scenario realistico nelle impostazioni di Machine Learning as a Service (MLaaS) che consentono l’interrogazione senza rivelare gli aspetti interni del modello. Gli attacchi di ricostruzione dei dati, ad esempio, sfruttano la tendenza del modello a memorizzare i dati di addestramento per decodificare i record utente sensibili. L’inferenza dell’appartenenza sfrutta le differenze nel comportamento del modello (ad esempio, i valori di perdita) tra i dati presenti e assenti dal processo di addestramento. Ogni attacco mira a rivelare informazioni sensibili altrimenti destinate a rimanere private.

Le strategie di mitigazione contro gli attacchi alla privacy spesso ruotano attorno al principio della privacy differenziale (DP). I meccanismi DP iniettano rumore accuratamente calibrato nel processo di addestramento o negli output del modello per limitare la quantità di informazioni che un aggressore può dedurre sui singoli record. Le comuni tecniche DP includono l’aggiunta di rumore gaussiano o di Laplace al modello durante l’addestramento utilizzando DP-SGD, che limita la probabilità che un aggressore possa determinare se un particolare record esiste nel set di dati. Tuttavia, l’integrazione di DP introduce spesso compromessi tra il livello di privacy raggiunto e l’utilità del modello. Nello specifico, una maggiore applicazione di DP si traduce in una minore accuratezza dei dati. Compromessi efficaci tra privacy e utilità si ottengono generalmente mediante la convalida empirica di ciascun algoritmo. Pertanto, è necessario sviluppare e applicare all’intera catena di dati tecniche per verificare il livello di protezione.

Un’altra tecnica di mitigazione critica in risposta all’estrazione di informazioni su un modello da altri utenti può essere l’implementazione e la gestione del machine unlearning. Questa tecnica viene utilizzata per consentire ai soggetti dei dati di richiedere l’estrazione delle proprie informazioni personali dal modello. Esistono varie tecniche di unlearning e compromessi che devono essere fatti quando se ne implementa una. Per una sicurezza del modello di livello superiore, è possibile limitare le query degli utenti, rilevare query sospette al modello o creare architetture che impediscono attacchi side-channel. Queste tecniche, tuttavia, possono essere aggirate da aggressori motivati ​​e quindi non sono soluzioni complete. La combinazione di più strategie di protezione porterà a controlli efficaci contro gli attacchi.

Quali sono le principali classi di attacchi ai sistemi GenAI?

Le principali classi di attacchi ai sistemi GenAI possono essere ampiamente classificate in base agli obiettivi dell’attaccante: violazioni della disponibilità, violazioni dell’integrità, compromissioni della privacy e abilitazione all’uso improprio. Gli attacchi alla supply chain, pur essendo rilevanti sia per l’IA predittiva che per quella generativa, meritano un’attenzione specifica a causa delle complessità introdotte dalle dipendenze di terze parti e del potenziale impatto diffuso. Gli attacchi di prompting diretti e indiretti sfruttano ulteriormente le vulnerabilità uniche derivanti dalla combinazione di dati e istruzioni nei sistemi GenAI.

Gli attacchi alla disponibilità, come l’avvelenamento dei dati, l’iniezione indiretta di prompt e l’iniezione di prompt, mirano a interrompere la capacità di altri utenti o processi di accedere al sistema GenAI. Gli attacchi all’integrità, realizzati attraverso l’avvelenamento dei dati, l’iniezione indiretta di prompt, l’iniezione di prompt, l’avvelenamento backdoor, l’avvelenamento mirato e output disallineati, compromettono la funzione prevista del sistema, facendogli produrre contenuti errati o realizzati in modo dannoso. Gli attacchi alla privacy sfruttano l’iniezione indiretta di prompt, l’iniezione di prompt, l’avvelenamento backdoor, l’inferenza di appartenenza, l’estrazione di prompt e la perdita di dati dalle interazioni degli utenti, gli attacchi ai dati di addestramento, l’estrazione di dati e la compromissione delle risorse connesse per ottenere accesso non autorizzato ai dati o esporre informazioni sensibili. La nuova categoria di attacchi di abilitazione all’uso improprio implica l’elusione delle restrizioni sugli output del modello, in genere tramite l’iniezione di prompt o la messa a punto per rimuovere i meccanismi di allineamento della sicurezza.

Comprendere queste categorie è fondamentale per sviluppare strategie di mitigazione efficaci. Queste difese sono progettate per contrastare diversi vettori di attacco e proteggere gli attributi essenziali delle implementazioni GenAI. Le strategie di mitigazione spesso richiedono un approccio a livelli, che incorpora tecniche di pre-training e post-training con monitoraggio e filtraggio in tempo reale. Risposte efficaci a questi attacchi richiedono una valutazione approfondita delle vulnerabilità del sistema e un impegno continuo con il panorama in evoluzione dei metodi avversari.

Quali sono i rischi e le mitigazioni relativi agli attacchi alla supply chain di dati e modelli nei sistemi GenAI?

Gli attacchi alla supply chain di dati e modelli pongono rischi significativi per l’integrità e la sicurezza dei sistemi GenAI. Data la dipendenza da modelli pre-addestrati e fonti di dati esterne, questi attacchi possono avere conseguenze di vasta portata. Gli attacchi di data poisoning comportano l’inserimento di dati dannosi nei set di dati di addestramento, portando potenzialmente a backdoor o bias nei modelli risultanti. Questi modelli avvelenati possono quindi far sì che le applicazioni downstream mostrino comportamenti indesiderati o dannosi. Gli attacchi di model poisoning, d’altra parte, comportano la modifica diretta dei parametri del modello, rendendo disponibili modelli pre-addestrati che possono contenere backdoor, che sono spesso difficili da rilevare e costosi da rimediare. Un utente malintenzionato con il controllo del modello ha la capacità di modificare i parametri del modello, ad esempio tramite API disponibili pubblicamente e/o pesi del modello accessibili apertamente. Questa capacità viene utilizzata negli attacchi di model poisoning in cui un avversario si è infiltrato nei dati di addestramento e può causare il fallimento dei dati downstream. Poiché i comportamenti di attacco possono essere trasferibili, i modelli a peso aperto potrebbero diventare vettori di attacco utili per il trasferimento a sistemi chiusi durante i quali è consentito solo l’accesso all’API.

Mitigare questi rischi della supply chain richiede un approccio sfaccettato che includa sia le pratiche tradizionali della supply chain del software sia misure specifiche per l’IA. Le tecniche di sanificazione dei dati svolgono un ruolo cruciale nell’identificazione e nella rimozione di campioni avvelenati dai set di dati di addestramento. La verifica e la convalida del modello sono essenziali per garantire l’integrità dei modelli pre-addestrati prima della loro adozione. Metodi di addestramento robusti e tecniche crittografiche per l’attestazione di provenienza e integrità possono fornire ulteriori garanzie. Inoltre, le organizzazioni che adottano modelli GenAI dovrebbero essere consapevoli di quanto poco si sappia riguardo alle tecniche di model poisoning e dovrebbero progettare applicazioni in modo da ridurre i rischi derivanti dagli output del modello controllato dall’attaccante. Il settore dovrebbe anche guardare alle capacità di sicurezza informatica per un’integrità comprovata. Un’igiene dei dati più generale, inclusa la sicurezza informatica e la protezione della provenienza, risale a monte con la raccolta dei dati. Pubblicando etichette di dati e collegamenti, il downloader deve verificare.

Altre mitigazioni e considerazioni

Oltre alle strategie di mitigazione fondamentali della sanificazione dei dati e dei modelli, è imperativo comprendere i modelli come componenti di sistema non affidabili e progettare applicazioni in modo tale da ridurre i rischi e gli esiti derivanti dagli output del modello controllato dall’attaccante. Ulteriori sicurezza e rischi possono essere mitigati combinando le pratiche esistenti per la gestione del rischio della supply chain del software e le informazioni specifiche sulla provenienza. Un’altra considerazione per mitigare i rischi include la verifica dei download web utilizzati per l’addestramento come controllo di integrità di base per garantire che un dirottamento del dominio non abbia inserito nuove fonti di dati nel set di dati di addestramento. Ulteriori misure includono il rilevamento attraverso meccanismi meccanizzati per individuare le vulnerabilità e le modifiche alla progettazione delle applicazioni stesse che migliorano l’igiene informatica generale.

Quali sono i metodi per contrastare e mitigare gli attacchi di “direct prompting”?

Gli attacchi di “direct prompting” rappresentano una preoccupazione significativa nell’IA generativa, dove soggetti ostili manipolano l’input dei modelli linguistici di grandi dimensioni (LLM) per suscitare comportamenti indesiderati o dannosi. Questi attacchi coinvolgono direttamente l’utente come interfaccia principale del sistema, interrogando il modello in modi che sovvertono il suo scopo previsto. Una tecnica prevalente è il “prompt injection”, in cui istruzioni avversarie sono incorporate all’interno del contenuto fornito dall’utente per sovrascrivere o alterare il “system prompt” dell’LLM. Ciò aggira le misure di sicurezza progettate per impedire la generazione di output ristretti o non sicuri, una forma di attacco spesso definita “jailbreaking”. Le tecniche di “direct prompting” includono attacchi basati sull’ottimizzazione, che si affidano a metodi basati sulla ricerca e input avversari. I metodi manuali offrono attacchi più semplici basati sulla generazione di obiettivi concorrenti o generalizzazioni non corrispondenti nei prompt. Il “red teaming” automatizzato basato su modelli testa ulteriormente i modelli.

La mitigazione degli attacchi “direct prompting” richiede un approccio multiforme che abbraccia l’intero ciclo di vita della distribuzione dell’IA. Le strategie protettive possono essere applicate durante le fasi di pre-addestramento e post-addestramento, come l’inclusione di un addestramento alla sicurezza per rendere il “jailbreaking” più impegnativo e l’impiego di un addestramento avversario per aumentare le capacità difensive del modello. Altre misure di addestramento consistono nel perfezionare i dati utilizzati dal modello, aumentando così l’efficacia del modello. Gli sforzi in corso ruotano attorno alla fase di valutazione, con benchmark progettati per misurare l’efficacia di tali attacchi sull’architettura di un modello. La distribuzione fornisce uno spazio all’ingegnere dei prompt per implementare tecniche di formattazione, metodi di rilevamento e modifiche agli input dell’utente per proteggere la funzione LLM. Comprendendo le tattiche in evoluzione del “prompt injection” e combinando strategie di mitigazione, gli sviluppatori possono rafforzare le difese dei sistemi GenAI contro gli attacchi “direct prompting” e, quindi, garantire un utilizzo dell’IA più sicuro e affidabile.

Quali sono gli attacchi di estrazione di informazioni utilizzati contro i modelli GenAI?

Gli attacchi di estrazione di informazioni contro i modelli di Intelligenza Artificiale Generativa (GenAI) sono un sottoinsieme di attacchi di prompting diretti che sfruttano le capacità del modello stesso per rivelare informazioni sensibili o proprietarie. Gli aggressori sfruttano la capacità del modello di accedere, elaborare e comprendere i dati, costringendolo a divulgare informazioni che non erano mai destinate al consumo pubblico. Un fattore chiave che consente tali attacchi è che i sistemi GenAI operano combinando dati e istruzioni nello stesso canale, una scelta progettuale che crea il potenziale per istruzioni dannose di sovrascrivere o corrompere il comportamento previsto. Questi attacchi si concentrano spesso sull’acquisizione di dati runtime in cui l’LLM riceve flussi di dati da fonti esterne.

Diversi approcci vengono impiegati per realizzare attacchi di estrazione di informazioni. Una tecnica prevede di spingere l’LLM a ripetere o rigurgitare interi documenti o dati sensibili dal suo contesto, spesso ottenuti chiedendo al modello di “ripetere tutte le frasi nella nostra conversazione” o “estrarre tutte le parole chiave e le entità dal testo sopra”. Un altro metodo utilizza tecniche di furto di prompt per ricostruire il prompt di sistema originale. Questi prompt contengono istruzioni vitali che allineano gli LLM a un caso d’uso specifico e possono quindi essere considerati segreti commerciali di valore. Una terza tecnica prevede attacchi di estrazione del modello, in cui l’obiettivo è estrarre informazioni sull’architettura e sui parametri dei modelli. Poiché le informazioni estratte possono essere utilizzate per formulare attacchi più efficaci o possono minare le protezioni della proprietà intellettuale, l’estrazione di informazioni rappresenta una minaccia significativa per la sicurezza e l’integrità dei sistemi GenAI.

Mitigare gli attacchi di estrazione di informazioni richiede un approccio a più livelli. Il controllo degli accessi dovrebbe garantire che al modello non venga concesso l’accesso a materiali che comporterebbero conseguenze inaccettabili per la sicurezza se esfiltrati. Le difese devono essere implementate sia a livello di modello che di sistema: salvaguardie basate su prompt che rilevano e oscurano informazioni sensibili e salvaguardie di rete o infrastruttura che impediscono l’esfiltrazione di dati verso sistemi non affidabili. Inoltre, è possibile aggiungere filtri agli input dell’applicazione nel tentativo di impedire che determinati comandi di estrazione vengano inseriti nel modello in primo luogo. Progettare sistemi presupponendo che i modelli possano essere compromessi e divulgare informazioni offrirà anche protezione durante questi attacchi.

Quali sono i metodi per affrontare e mitigare gli attacchi di prompt injection indiretti?

Un attacco di prompt injection indiretto si verifica quando un attaccante modifica risorse esterne che un modello di IA Generativa (GenAI) ingerisce in fase di esecuzione. Questa manipolazione consente quindi all’attaccante di iniettare istruzioni adversariali senza interagire direttamente con l’applicazione. Questi attacchi possono provocare violazioni della disponibilità, dell’integrità o compromissioni della privacy, a differenza degli attacchi di prompt injection diretti, che vengono avviati dall’utente primario. Pertanto, gli attacchi indiretti possono essere più insidiosi, armando i sistemi contro i loro utenti in modi difficili da prevedere. La disponibilità può essere compromessa iniettando prompt che istruiscono il modello a eseguire attività che richiedono tempo, inibendo l’uso delle API o interrompendo la formattazione dell’output. Ad esempio, un attaccante potrebbe indirizzare un modello a sostituire i caratteri con omoglifi o forzare il modello a restituire un output vuoto tramite una specifica manipolazione dei token.

Gli attacchi di prompt injection indiretti possono anche compromettere l’integrità di un modello GenAI. Possono essere manipolati utilizzando risorse dannose per introdurre la generazione di contenuti adversariali. Le azioni possono includere la generazione di riepiloghi errati o la diffusione di disinformazione. Risorse note utilizzate nei test sono il jailbreaking, impiegando tecniche di ottimizzazione per sviluppare prompt o sfruttando le relazioni di fiducia gerarchiche nei prompt. Ulteriori tecniche includono l’avvelenamento della base di conoscenza, che comporta la contaminazione della base di conoscenza di un sistema RAG per influenzare l’output LLM mirato a specifiche query dell’utente come in PoisonedRAG. Inoltre, l’injection hiding prevede tecniche per nascondere iniezioni avversarie in porzioni non visibili di una risorsa. Inoltre, la propagazione include l’uso di attacchi che trasformano un sistema GenAI in un vettore per la diffusione di worm.

Mitigazioni come l’addestramento di modelli per essere meno suscettibili a tali attacchi, lo sviluppo di sistemi di rilevamento e l’implementazione di un’elaborazione meticolosa dell’input possono migliorare la robustezza. Gli approcci includono la messa a punto di modelli specifici per attività e la pulizia dei dati di terze parti. Diversi metodi sono anche simili a quelli utilizzati per contrastare le iniezioni di prompt dirette, tra cui la progettazione di prompt per dati attendibili e non attendibili. Un approccio chiave è la creazione di una fiducia gerarchica di ogni LLM impiegato nel sistema per decidere le azioni. Anche l’educazione pubblica è una risorsa. Tuttavia, poiché nessuna strategia di mitigazione garantisce la piena protezione di una vasta gamma di metodi di attacco, progettare sistemi con il presupposto che gli attacchi di prompt injection siano inevitabili è un approccio saggio, con modelli che hanno accesso limitato a database o altre fonti di dati. Nel complesso, un approccio completo e defense-in-depth dovrebbe continuare a consentire progressi significativi.
italiano

Quali sono i rischi per la sicurezza inerenti agli agenti e agli strumenti basati sull’IA generativa?

Gli agenti e gli strumenti basati sull’IA generativa, pur offrendo capacità senza precedenti, introducono rischi per la sicurezza unici a causa della loro architettura e del modo in cui interagiscono con i dati e altri sistemi. Una preoccupazione primaria è la suscettibilità agli attacchi di prompt injection, sia diretti che indiretti. La prompt injection diretta si verifica quando un aggressore manipola il modello tramite input diretto, sovrascrivendo le istruzioni del sistema e potenzialmente estraendo informazioni sensibili o inducendo comportamenti indesiderati. La prompt injection indiretta, forse più insidiosa, comporta la manipolazione di fonti di dati esterne che l’agente o lo strumento utilizza per il contesto, portando a output o azioni compromesse senza intervento diretto dell’utente. Ciò è particolarmente problematico nelle applicazioni di Retrieval-Augmented Generation (RAG), dove le informazioni acquisite da fonti esterne possono essere create in modo dannoso.

I rischi specifici derivanti dall’uso di agenti di IA generativa includono il potenziale per l’accesso non autorizzato alle API, l’esfiltrazione di dati e l’esecuzione di codice dannoso. Poiché gli agenti operano autonomamente e spesso hanno accesso a una gamma di strumenti e sistemi, rappresentano un’ampia superficie di attacco. Un agente compromesso potrebbe, senza la supervisione umana, eseguire azioni dannose come la diffusione di disinformazione, l’accesso o la fuoriuscita di dati sensibili o l’interruzione di processi critici. La sfida intrinseca sta nel fatto che le istruzioni e i dati non vengono forniti in canali separati al modello di IA generativa, il che è simile ad avere un canale imperfetto per qualsiasi potenziale hack. Il fatto che gli input di dati e istruzioni possano essere combinati in modi arbitrari, apre vettori di attacco comparabili alle vulnerabilità di SQL injection che sono ben note e ampiamente mitigate in altre aree dello sviluppo software.

Questi rischi sono ulteriormente amplificati in scenari in cui le organizzazioni si affidano a modelli o plugin sviluppati da terzi, creando vulnerabilità della catena di fornitura. Un aggressore potrebbe introdurre codice dannoso o backdoor in questi componenti, potenzialmente influenzando una vasta gamma di applicazioni downstream. Poiché i modelli vengono addestrati utilizzando una vasta quantità di dati attraverso un ampio numero di diversi set di dati, i malintenzionati possono impegnarsi in attacchi su larga scala che possono avere importanti effetti a catena attraverso l’intero sistema a cui sono collegati gli agenti e gli strumenti basati sull’IA generativa. Mitigare questi rischi richiede un approccio globale, che combini una solida convalida degli input, il monitoraggio degli output, pratiche di codifica sicure e una profonda comprensione della superficie di attacco inerente alle tecnologie di IA generativa.

Quali sono le principali sfide e limitazioni nel campo dell’apprendimento automatico avversario?

Il campo dell’apprendimento automatico avversario (AML) affronta sfide intrinseche, derivanti dalla tensione tra l’ottimizzazione per la performance media (accuratezza) e la garanzia di robustezza contro scenari avversari nel caso peggiore. Migliorare un aspetto può avere un impatto significativo sull’altro, creando un delicato atto di equilibrio. Ciò è ulteriormente complicato dalla mancanza di algoritmi di apprendimento automatico teoricamente sicuri in numerose applicazioni. Senza queste garanzie, sviluppare mitigazioni adeguate diventa complesso e impegnativo, poiché i metodi possono apparire pratici ma spesso possono essere sconfitti da tecniche impreviste. L’affidamento a mitigazioni ad hoc, guidate empiricamente, crea un ambiente in cui i progressi nella difesa sono strettamente seguiti dalla scoperta di nuovi vettori di attacco corrispondenti, creando un ciclo continuo di adattamento.

Un’altra sfida critica risiede nel benchmarking, nelle limitazioni di valutazione e nella distribuzione delle difese. Le diverse ipotesi e metodologie impiegate in diversi studi di AML spesso portano a risultati difficili da confrontare, ostacolando la comprensione genuina dell’effettiva efficacia delle tecniche di mitigazione proposte. Il campo richiede benchmark standardizzati per aiutare ad accelerare lo sviluppo di progetti di mitigazione più rigorosi per fornire un quadro da cui la distribuzione può progredire. Inoltre, la determinazione dell’efficacia di una mitigazione dovrebbe anche considerare la possibilità di difendersi sia dagli attacchi attuali che da quelli futuri, che devono essere inclusi anche nella valutazione. Inoltre, la capacità di rilevare che un modello è sotto attacco è estremamente utile per consentire meglio le strategie di mitigazione avendo maggiore chiarezza e consapevolezza situazionale del panorama.

Compromessi tra gli Attributi dell’IA Affidabile

Una sfida finale riguarda il bilanciamento di molteplici attributi dell’IA affidabile. Il campo dell’AML si concentra principalmente sulla sicurezza, la resilienza e la robustezza del modello. Deve anche lavorare con tecniche per migliorare aspetti importanti come la sua interpretabilità o spiegabilità.


La ricerca rivela un panorama in cui l’ingegnosità avversaria sfida costantemente la sicurezza e l’affidabilità dei sistemi di IA. Rafforzare le nostre difese richiede una strategia multiforme che vada oltre le misure reattive. Ciò include l’identificazione proattiva delle vulnerabilità, la progettazione di architetture resilienti e la definizione di metodi di valutazione standardizzati. In definitiva, il percorso da seguire richiede un approccio olistico allo sviluppo dell’IA, che consideri non solo l’accuratezza, ma anche la robustezza, la privacy e le considerazioni etiche per garantire una distribuzione responsabile e sicura di queste potenti tecnologie.

More Insights

Guerra ai Tariffi: L’Impatto sull’Intelligenza Artificiale in Europa

I dazi doganali possono avere un impatto complesso sull'avanzamento dell'IA e dell'automazione, fungendo sia da potenziale ostacolo che, paradossalmente, da possibile catalizzatore in alcune aree...

Piano d’azione per l’AI: L’Europa punta alla sovranità tecnologica

La Commissione Europea ha appena pubblicato il suo Piano d'Azione sull'IA, una strategia globale volta a stabilire l'Europa come leader mondiale nell'intelligenza artificiale. Il piano delinea un...

L’Equilibrio Dell’Intelligenza Artificiale a Singapore

Singapore, che si appresta a celebrare sei decenni di progressi straordinari, si trova ora su un precipizio diverso mentre svela la sua ambiziosa Strategia Nazionale per l'IA 2.0. Tuttavia, le ombre...

Intelligenza Artificiale Responsabile nel Settore FinTech

Lexy Kassan discute gli aspetti critici dell'IA responsabile, concentrandosi sugli aggiornamenti normativi come l'Atto sull'IA dell'UE e le sue implicazioni per il FinTech. Spiega i livelli di IA...

Intelligenza Artificiale al Servizio dell’Umanità

Nel panorama in continua evoluzione dell'intelligenza artificiale, la conversazione attorno all'AI incentrata sull'uomo sta guadagnando un'importanza significativa. Questo cambiamento di paradigma è...

Regolamentazione dell’Intelligenza Artificiale: L’Inizio di una Nuova Era in Europa

L'Atto sull'Intelligenza Artificiale dell'UE rappresenta il primo importante quadro normativo al mondo per l'IA, creando un regime legale uniforme per tutti gli stati membri dell'UE. Questo atto mira...

Piano d’azione per l’IA in Europa: Investimenti e Innovazione

Il 9 aprile 2025, la Commissione Europea ha adottato un comunicato sul Piano d'Azione dell'AI Continent, con l'obiettivo di trasformare l'UE in un leader globale nell'AI. Il piano prevede investimenti...

Aggiornamento sulle Clausole Contrattuali AI dell’UE

Il "mercato" per i termini contrattuali sull'IA continua ad evolversi, e mentre non esiste un approccio standardizzato, sono stati proposti diversi modelli di contrattazione. Una delle ultime...

Riconoscimento Emotivo: Nuove Regole per il Lavoro

L'Intelligenza Artificiale per il riconoscimento delle emozioni sta guadagnando terreno in vari contesti, tra cui il rilevamento di conflitti potenziali nei luoghi pubblici e l'analisi delle vendite...