Qual è lo scopo e la portata complessiva dello studio
Questo documento presenta un’analisi degli elementi comuni riscontrati in dodici politiche di sicurezza dell’IA di frontiera attualmente pubblicate. Queste politiche, stabilite dalle principali aziende di IA, sono protocolli progettati per mitigare i rischi associati allo sviluppo e all’implementazione di modelli di IA all’avanguardia, mirando a mantenere questi rischi a un livello accettabile. Questa analisi si basa su lavori precedenti, indagando se le nove politiche aggiuntive pubblicate oltre il set iniziale di Anthropic, OpenAI e Google DeepMind incorporano gli stessi componenti chiave inizialmente identificati. In definitiva, il rapporto cerca di offrire approfondimenti sulle attuali migliori pratiche per la gestione dei gravi rischi dell’IA analizzando questi elementi condivisi nel contesto delle informazioni di base e degli estratti effettivi delle politiche. Lo studio mira a promuovere una comprensione più approfondita di come l’industria dell’IA affronta il compito fondamentale di garantire l’evoluzione sicura e responsabile della tecnologia dell’IA di frontiera.
La portata dello studio comprende un esame dettagliato di diversi componenti critici presenti nelle politiche di sicurezza. Questi componenti includono soglie di capacità che definiscono i punti in cui specifiche capacità dell’IA porrebbero gravi rischi e richiederebbero nuove strategie di mitigazione. Viene esaminata anche la sicurezza dei pesi del modello, in particolare le misure di sicurezza delle informazioni volte a prevenire l’accesso non autorizzato ai pesi del modello. Lo studio indaga ulteriormente sulle mitigazioni dell’implementazione del modello: misure di accesso e a livello di modello progettate per prevenire l’uso improprio di pericolose capacità dell’IA. Vengono analizzate anche le condizioni per interrompere sia l’implementazione che i piani di sviluppo, concentrandosi sull’impegno delle aziende a cessare l’attività se emergono capacità di IA preoccupanti prima che siano in atto adeguate misure di mitigazione. Viene anche esaminata l’accuratezza dell’elicitazione delle capacità durante le valutazioni del modello, insieme alla tempistica e alla frequenza specificate di queste valutazioni. Infine, lo studio approfondisce i meccanismi di responsabilità, in particolare i meccanismi di supervisione interni ed esterni volti a incoraggiare la corretta esecuzione delle politiche di sicurezza, e l’intenzione dichiarata di aggiornare le politiche nel tempo man mano che la comprensione dei rischi dell’IA si evolve.
Sfaccettature delle Politiche
Pur mirando a una visione completa degli elementi comuni, lo studio riconosce anche gli approcci unici e le differenze riscontrate in ogni singola politica di sicurezza. Alcune politiche enfatizzano i rischi specifici del dominio, come l’attenzione di Nvidia e Cohere su applicazioni specifiche, piuttosto che concentrarsi esclusivamente sul potenziale di danni catastrofici. Allo stesso modo, lo studio riconosce le sfumature nei diversi metodi di valutazione, in cui alcune politiche si basano fortemente su parametri di riferimento quantitativi, mentre altre danno la priorità alle valutazioni qualitative. Riconoscendo queste variazioni, l’analisi presenta una comprensione olistica delle varie strategie impiegate dagli sviluppatori di IA, fornendo preziose informazioni sullo stato attuale delle pratiche di sicurezza nel regno dell’IA di frontiera.
Qual è la necessità di descrivere le componenti comuni delle politiche di sicurezza dell’IA
La proliferazione di politiche di sicurezza dell’IA di frontiera tra i principali sviluppatori di IA sottolinea un riconoscimento condiviso dei potenziali rischi associati a modelli di IA sempre più capaci. Descrivere le componenti comuni di queste politiche rappresenta un passo cruciale per promuovere una comprensione collettiva dello stato attuale della gestione dei rischi dell’IA. Identificando gli elementi condivisi, come le soglie di capacità, la sicurezza dei pesi del modello, le mitigazioni per l’implementazione e le strategie di valutazione, possiamo iniziare a stabilire una linea di base per lo sviluppo e l’implementazione responsabili dell’IA. Questa comprensione consente alle parti interessate, tra cui i responsabili politici, i ricercatori e il pubblico, di valutare criticamente la completezza e il rigore delle singole politiche e di identificare lacune o aree in cui è necessario un ulteriore perfezionamento. Tale analisi comparativa può informare significativamente il dialogo in corso sulla sicurezza dell’IA e contribuire a promuovere lo sviluppo di misure di sicurezza più robuste ed efficaci.
Perché un linguaggio comune è importante.
Inoltre, una chiara articolazione delle componenti comuni aiuta a promuovere la coerenza e l’interoperabilità tra i diversi sforzi di sviluppo dell’IA. Sebbene ogni politica possa riflettere un approccio unico alla gestione dei rischi dell’IA, un vocabolario condiviso e una comprensione dei concetti fondamentali possono facilitare la collaborazione e la condivisione delle conoscenze tra gli sviluppatori. Ciò è particolarmente importante data la natura globale della ricerca sull’IA e la necessità di un’azione coordinata per affrontare i potenziali rischi. Un quadro standardizzato consente un confronto più chiaro dei diversi approcci, evidenziando le migliori pratiche e facilitando l’adozione di strategie di mitigazione del rischio più efficaci in tutto il settore. Evita la re-invenzione e semplifica l’utilizzo dei risultati di diverse organizzazioni.
Infine, documentare e diffondere queste componenti comuni fornisce una risorsa preziosa per le organizzazioni che stanno iniziando a formulare le proprie politiche di sicurezza dell’IA. Fornendo una chiara panoramica degli elementi essenziali, si abbassa la barriera all’ingresso per le organizzazioni che cercano di adottare pratiche di sviluppo responsabili dell’IA. Ciò è particolarmente importante per le organizzazioni più piccole o meno ben fornite che potrebbero non avere le competenze o le risorse per sviluppare politiche complete da zero. Fornire una struttura ben definita, inclusi elementi comuni e una logica di fondo, garantisce che il settore evolva verso pratiche di sviluppo più sicure nel complesso.
Quali criteri definiscono i rischi potenzialmente gravi relativi ai modelli di IA
L’analisi delle politiche di sicurezza dell’IA di frontiera rivela che diversi criteri vengono costantemente utilizzati per definire i rischi potenzialmente gravi associati a questi modelli avanzati. Questi criteri ruotano generalmente attorno alle capacità dei modelli stessi, in particolare al loro potenziale di uso improprio e all’impatto risultante. Un elemento chiave è la definizione di *soglie di capacità*, che indicano specifici livelli di funzionalità dell’IA che, se raggiunti, rappresenterebbero un rischio significativo e richiederebbero l’implementazione di robuste strategie di mitigazione. Queste soglie sono spesso valutate rispetto a modelli di minaccia plausibili, che descrivono scenari prospettici in cui l’IA potrebbe essere sfruttata per causare danni considerevoli. Ad esempio, il superamento di una soglia di capacità predefinita in un dominio biologico potrebbe indicare il potenziale dell’IA di facilitare lo sviluppo di armi biologiche, innescando rigidi protocolli di sicurezza.
Inoltre, queste politiche di sicurezza sottolineano comunemente l’importanza dei modelli di minaccia per determinare le soglie di capacità. Questi includono comunemente l’assistenza nello sviluppo di armi biologiche, l’orchestrazione o il miglioramento di attacchi informatici e l’automazione della ricerca e sviluppo sull’IA, che potrebbe accelerare la proliferazione di capacità di IA potenzialmente pericolose. Le valutazioni di questi modelli sono frequentemente progettate per considerare le capacità abilitanti, come la ricerca e sviluppo automatizzata sull’IA, l’utilizzo di strumenti o l’ingegneria dei prompt, che potrebbero aumentare i potenziali casi di uso improprio al di là delle capacità del modello di base. Ciò include la valutazione dell’abilità del modello in compiti specifici rilevanti per questi modelli di minaccia, tenendo conto dei potenziali miglioramenti post-formazione come la messa a punto, l’esecuzione di codice, l’utilizzo di strumenti o la ricerca sul web per garantire che la valutazione catturi il pieno potenziale del modello.
Metodologie di Valutazione del Rischio
Un altro aspetto cruciale nella definizione di rischi potenzialmente gravi è la valutazione e il monitoraggio continui dei modelli di IA durante il loro ciclo di vita. Ciò comporta non solo valutazioni pre-distribuzione, ma anche valutazioni continue durante l’addestramento e il monitoraggio post-distribuzione per rilevare eventuali capacità o vulnerabilità emergenti. La frequenza e l’intensità di queste valutazioni sono spesso determinate dal tasso di progresso delle capacità del modello, con valutazioni più frequenti innescate da progressi significativi o scoperte algoritmiche. La definizione di indicatori precisi e soglie di allerta, che vengono regolarmente rivisti e aggiornati sulla base dell’evoluzione dei rischi e dei progressi nella mitigazione, è un elemento cruciale nella definizione di un rischio potenzialmente più elevato che spinge a una maggiore attenzione nell’identificazione e nell’affrontare le capacità potenzialmente pericolose. Questo approccio proattivo garantisce che i potenziali rischi vengano identificati e affrontati tempestivamente, prevenendo la distribuzione prima che siano in atto adeguate misure di salvaguardia e interrompendo lo sviluppo se non è possibile implementare le necessarie misure di sicurezza.
Quali misure vengono adottate per prevenire l’accesso non autorizzato ai pesi del modello
Una componente critica delle politiche di sicurezza dell’IA di frontiera riguarda misure robuste progettate per prevenire l’accesso non autorizzato ai pesi del modello. Il consenso tra le politiche esaminate è che, man mano che i modelli di IA sviluppano capacità preoccupanti, sono essenziali misure di sicurezza delle informazioni progressivamente più forti per prevenire sia il furto che il rilascio involontario. Questa enfasi deriva dal riconoscimento che gli attori malintenzionati che acquisiscono i pesi del modello potrebbero abusarne per infliggere danni gravi. La sofisticazione dei potenziali attori delle minacce varia, spaziando da hacker opportunistici a operazioni di stati nazionali altamente attrezzati, il che richiede un approccio a più livelli ai protocolli di sicurezza.
Misure di sicurezza in aumento
Le misure di sicurezza specifiche vengono solitamente implementate in livelli crescenti, commisurati alle capacità di un modello e al rischio percepito. Questi livelli spesso si allineano con i quadri esistenti che forniscono livelli di controlli di sicurezza raccomandati. Ad esempio, controlli specifici potrebbero includere restrizioni di accesso rigorose, registrazione e monitoraggio avanzati, controlli di sicurezza perimetrale avanzati, sistemi di rilevamento e risposta degli endpoint e l’applicazione dell’autenticazione a più fattori in tutto l’ambiente di sviluppo. Il red-teaming di sicurezza avanzato viene spesso utilizzato per simulare attacchi, testando la robustezza delle protezioni esistenti. Misure di protezione dei dati, come la crittografia e l’uso di token di sicurezza hardware, sono anche comuni per salvaguardare i dati del modello e i checkpoint intermedi. Molte politiche sottolineano l’importanza della compartimentazione interna per limitare l’accesso agli ambienti di addestramento LLM, al codice e ai parametri solo al personale autorizzato con livelli di autorizzazione appropriati. I pesi del modello sono spesso memorizzati in reti isolate che soddisfano severi requisiti di sicurezza.
Diversi sviluppatori di IA fanno riferimento al rapporto della RAND Corporation, “Securing AI Model Weights”. Le aziende adottano i principi descritti in quel quadro, con indicazioni specifiche sul livello di sicurezza raccomandato per i modelli con determinate capacità. Viene posta enfasi sull’adesione a quadri e pratiche di sicurezza standard del settore, come il framework MITRE ATT&CK e le migliori pratiche di governance del rischio. Inoltre, queste politiche mirano a garantire livelli di garanzia equivalenti anche quando i modelli vengono distribuiti in ambienti di terze parti con protezioni di sicurezza potenzialmente diverse. Se non è possibile implementare tempestivamente adeguate mitigazioni, le politiche impongono di sospendere lo sviluppo del modello per evitare la progressione di capacità potenzialmente dannose senza un ambiente sicuro in atto. L’efficacia delle mitigazioni della distribuzione si basa sul fatto che i modelli rimangano in modo sicuro in possesso di sviluppatori autorizzati, sottolineando così l’importanza delle misure di sicurezza delle informazioni. L’obiettivo principale è quello di proteggere questi potenti sistemi di IA da potenziali abusi da parte di entità ostili che potrebbero cercare di sfruttare le loro funzionalità avanzate per scopi nefasti.
Quali strategie di implementazione vengono impiegate per ridurre i rischi di pericolose capacità dell’IA
Le politiche di sicurezza dell’IA di frontiera enfatizzano un approccio stratificato per mitigare i rischi associati all’implementazione. Queste strategie comprendono una gamma di tecniche, dall’addestramento dei modelli a rifiutare richieste dannose al monitoraggio degli output e all’addestramento avversariale più sofisticati. Il principio fondamentale è che le misure di protezione dovrebbero aumentare proporzionalmente al danno potenziale che un modello potrebbe causare. Man mano che i modelli diventano più potenti e capaci, attraggono inevitabilmente tentativi più determinati e ricchi di risorse per aggirare le restrizioni o sfruttare le loro capacità. Pertanto, i metodi iniziali come il rifiuto di base dei danni sono integrati da red-teaming esperti e automatizzati per identificare e affrontare le potenziali vulnerabilità prima dell’implementazione. Anche il monitoraggio continuo post-implementazione è fondamentale per rilevare e correggere eventuali compromissioni o jailbreak che potrebbero emergere.
Molte politiche di sicurezza dell’IA di frontiera incorporano specifiche strategie di mitigazione dell’implementazione basate su soglie di capacità chiaramente definite. Raggiunta una soglia critica, vengono attivate varie misure, spesso coinvolgendo una combinazione di strategie di contenimento e riduzione del rischio. Queste potrebbero includere la limitazione severa dell’accesso a un modello o alle sue funzionalità, l’implementazione del modello solo in ambienti altamente ristretti e l’aumento significativo della priorità dei controlli informativi e di sicurezza informatica. Alcune aziende utilizzano tecniche come la messa a punto dei modelli per rifiutare query dannose, l’impiego di classificatori di sicurezza dell’output e l’implementazione di un monitoraggio continuo per rilevare e affrontare l’uso improprio di un modello. Inoltre, molti riconoscono la necessità di una correzione rapida, attraverso patch rapide delle vulnerabilità, escalation alle forze dell’ordine quando necessario e rigida conservazione dei registri. In definitiva, molti si impegnano a non implementare modelli di frontiera se superano le soglie di rischio predefinite fino a quando non vengono trovate garanzie appropriate e dimostrabilmente efficaci.
Tattiche specifiche per modelli ad alto rischio
Per i modelli che mostrano un significativo potenziale di uso improprio, le strategie di implementazione spesso comportano la definizione di criteri per la condivisione di versioni del modello con garanzie ridotte con un gruppo selezionato di utenti fidati. Questi utenti sono generalmente soggetti a rigorosi processi di controllo, controlli di accesso sicuri, monitoraggio ravvicinato, politiche di conservazione dei registri rigorose e protocolli di risposta agli incidenti ben definiti. Inoltre, i framework delineano le condizioni per interrompere del tutto i piani di implementazione se non sono in atto sufficienti misure di mitigazione. Ad esempio, se un modello di IA dimostra capacità potenzialmente pericolose prima che possano essere implementate le necessarie misure di sicurezza, l’ulteriore implementazione viene sospesa fino a quando tali misure di sicurezza non sono effettivamente in atto e dimostrabilmente robuste. Ciascuno di questi metodi si combina per ridurre drasticamente il rischio di un modello durante l’implementazione.
Quali sono le condizioni per limitare i piani di sviluppo dei modelli
Le politiche di sicurezza per l’intelligenza artificiale di frontiera riconoscono che ci sono circostanze in cui la prosecuzione dello sviluppo dei modelli pone rischi inaccettabili, rendendo necessaria una sospensione degli ulteriori progressi. Questa sezione esplora le condizioni che innescano impegni a limitare o sospendere i piani di sviluppo dei modelli. Queste condizioni sono generalmente legate all’emergere di specifiche capacità dell’IA che sollevano serie preoccupazioni circa il potenziale uso improprio, unitamente all’incapacità di mitigare adeguatamente tali rischi attraverso misure di sicurezza o altre tutele. Il principio fondamentale alla base di queste condizioni è la necessità di prevenire ulteriori progressi di modelli che potrebbero causare danni catastrofici se le loro capacità superassero lo sviluppo e l’attuazione di misure protettive sufficienti.
Una condizione primaria per la sospensione dello sviluppo si concentra sulle situazioni in cui un modello supera soglie di capacità predefinite relative al potenziale di rischio. Ad esempio, se un modello dimostra una spiccata capacità di facilitare lo sviluppo di armi biologiche o di eseguire complessi attacchi informatici, e i corrispondenti protocolli di sicurezza per prevenire il furto dei pesi del modello sono ritenuti insufficienti, lo sviluppo verrà sospeso. Un altro fattore scatenante riguarda l’identificazione di un significativo disallineamento del modello durante il processo di addestramento, anche se l’implementazione esterna non è imminente. Ciò rende necessaria una cessazione immediata dello sviluppo per affrontare i problemi fondamentali di allineamento prima che vengano coltivate ulteriori capacità. La determinazione della possibilità di mitigazioni adeguate implica spesso un rigoroso processo di valutazione.
Determinazione della sufficienza delle mitigazioni
La determinazione della possibilità di implementare misure di mitigazione adeguate è una valutazione caso per caso, ma alcuni principi guida possono essere tratti dal modo in cui viene affrontata nelle politiche di sicurezza esistenti. Richiede frequentemente una rivalutazione dei protocolli di sicurezza pianificati correnti per decidere se l’aumento dimostrato della capacità rappresenta anche un rischio maggiore. Inoltre, lo sviluppo del miglioramento della sicurezza (non lo sviluppo della capacità) può continuare durante la pausa. Tale azione potrebbe includere lo sviluppo mirato, come la messa a punto o la formazione sulla sicurezza. In definitiva, le politiche riflettono un impegno a dare priorità alla sicurezza, riconoscendo che il rapido progresso delle capacità dell’IA deve essere gestito con attenzione per prevenire conseguenze indesiderate e potenzialmente devastanti.
In che modo l’analisi delle capacità complete del modello può migliorare il processo di valutazione
Analizzare l’intera gamma delle capacità di un modello, piuttosto che concentrarsi esclusivamente sulle funzionalità previste o desiderate, migliora significativamente il processo di valutazione rivelando potenziali rischi associati all’uso improprio o alle conseguenze indesiderate. Ignorare le capacità complete può portare a una grossolana sottostima del vero profilo di rischio, poiché le capacità possono emergere in modi inaspettati, specialmente attraverso tecniche come l’ingegneria dei prompt, il fine-tuning o l’uso di strumenti esterni. Tentando attivamente di elicitare le capacità di un modello – inclusi scenari in cui potrebbe essere utilizzato in modo dannoso – i valutatori possono ottenere una comprensione più realistica del potenziale danno che potrebbe causare. Questo approccio globale alla scoperta delle capacità fornisce una base più solida per sviluppare misure di sicurezza mirate e strategie di mitigazione.
Inoltre, comprendere appieno le capacità di un modello consente uno sviluppo di mitigazione più proattivo. Quando le valutazioni considerano potenziali aree di uso improprio, gli sviluppatori possono progettare salvaguardie che prendano di mira specificamente queste vulnerabilità prima che vengano sfruttate. Ad esempio, valutare la capacità di un modello di assistere in attacchi informatici consente l’implementazione di difese che impediscono al modello di generare codice dannoso o identificare vulnerabilità. Allo stesso modo, comprendere il potenziale di un modello per automatizzare la ricerca sull’IA consente un monitoraggio proattivo e salvaguardie per prevenire pratiche di sviluppo non sicure. Questo approccio lungimirante garantisce che le misure di sicurezza siano allineate con il potenziale impatto del modello, riducendo la probabilità di risultati dannosi.
Migliorare la Robustezza tramite l’Elicitazione delle Capacità
Il processo di elicitazione delle capacità complete del modello rafforza intrinsecamente anche i test di robustezza. Sottoponendo il modello a stress test con prompt impegnativi, input adversario, simulando conoscenze avanzate attraverso il fine-tuning e incorporando il potenziale uso di strumenti, gli sviluppatori possono identificare le debolezze nelle misure di sicurezza esistenti e perfezionarle di conseguenza. Questo robusto processo di valutazione assicura che i meccanismi di sicurezza siano meno suscettibili di elusione, poiché le potenziali debolezze sono già state identificate e affrontate durante la fase di valutazione. Inoltre, ciò fornisce la possibilità di creare un modello di minaccia più completo e dettagliato. Le informazioni prodotte dall’elicitazione delle capacità aiutano gli sviluppatori a costruire i percorsi che gli attori malintenzionati potrebbero intraprendere e forniscono informazioni dettagliate sulle salvaguardie più adatte a fermarli.
In che modo queste politiche stabiliscono i meccanismi di supervisione nel contesto dell’IA di frontiera
Le politiche di sicurezza dell’IA di frontiera incorporano comunemente meccanismi di responsabilità, progettati per garantire la corretta esecuzione degli standard delineati all’interno di ciascun quadro. Questi meccanismi mirano a promuovere sia la governance interna che l’impegno esterno. La governance interna prevede frequentemente la designazione di ruoli e responsabilità specifici per la supervisione dell’attuazione delle politiche di sicurezza. Tale supervisione può essere gestita da individui specializzati, come un “Responsabile del dimensionamento responsabile”, team interni o organi di governo che hanno il compito di monitorare l’adesione alle politiche e valutare i rischi associati. La conformità è ulteriormente rafforzata attraverso procedure di sicurezza interne per scenari di incidenti rilevanti, piani di comunicazione chiari tra diversi team, revisioni interne e la creazione di processi per la segnalazione di violazioni delle politiche, spesso consentendo la segnalazione anonima.
Oltre ai controlli interni, diverse politiche sottolineano la trasparenza e l’input esterno come componenti essenziali della responsabilità. Ciò può includere la divulgazione pubblica di informazioni chiave relative al rischio, come metodologie di valutazione, riepiloghi delle valutazioni del rischio e risposte a casi identificati di non conformità. L’input di esperti da entità esterne viene perseguito tramite consultazione per la conduzione di valutazioni e la valutazione sia delle soglie di capacità che delle mitigazioni associate. Inoltre, alcune politiche delineano un impegno proattivo con le agenzie governative, indicando l’intenzione di condividere informazioni rilevanti sui modelli che raggiungono livelli di capacità critici che giustificano protezioni più rigorose e dimostrano un impegno a collaborare con il panorama normativo in evoluzione. Alcune organizzazioni si impegnano a revisioni di conformità procedurale di terze parti per valutare la coerenza delle politiche, con terze parti che verificano il processo di valutazione per migliorare l’accuratezza e l’equità dei risultati.
Dettagli di implementazione
Sebbene le intenzioni di alto livello appaiano coerenti in molte di queste politiche, i dettagli specifici della convalida esterna e delle misure di trasparenza dimostrano una notevole gamma. La profondità e l’ampiezza della trasparenza variano sostanzialmente, con alcune organizzazioni che si impegnano alla divulgazione pubblica dettagliata delle valutazioni chiave, mentre altre si concentrano sulla fornitura di informazioni più generali. Sebbene l’impegno per la revisione indipendente sia promettente, i dettagli concreti di come queste revisioni sono strutturate, implementate e concretizzate rimangono in gran parte indefiniti. Queste misure di responsabilità, pur mostrando una tendenza positiva verso una maggiore supervisione nel contesto dell’IA di frontiera, dovranno probabilmente evolversi e maturare man mano che le aziende continuano a confrontarsi con le complesse sfide di questo campo in via di sviluppo.
Con quale frequenza e secondo quali parametri vengono aggiornate le politiche di sicurezza
Le politiche di sicurezza dell’IA di frontiera non sono documenti statici; piuttosto, sono progettate per evolvere di pari passo con i rapidi progressi nelle capacità dell’IA e la crescente comprensione dei rischi associati. Tutte e dodici le aziende con politiche di sicurezza pubblicate esprimono l’intenzione di aggiornare periodicamente i propri protocolli. Questo impegno riconosce che lo studio empirico dei rischi catastrofici derivanti dai modelli di IA di frontiera è ancora nelle sue prime fasi e le stime attuali dei livelli di rischio e delle soglie sono soggette a perfezionamenti in base alla ricerca in corso, alle segnalazioni di incidenti e all’uso improprio osservato. Il monitoraggio continuo degli sviluppi della ricerca pertinenti è quindi fondamentale per identificare minacce emergenti o poco studiate che necessitano di adeguamenti ai quadri di sicurezza esistenti.
I parametri per l’attivazione degli aggiornamenti variano leggermente tra le politiche, ma generalmente includono cambiamenti significativi nelle capacità dei modelli di IA e progressi nella scienza della valutazione e della mitigazione del rischio. OpenAI, ad esempio, indica che gli aggiornamenti vengono attivati ogni volta che si verifica un aumento superiore a 2 volte nel calcolo effettivo o una svolta algoritmica importante. Altre aziende menzionano test di routine sui modelli per determinare se le loro capacità scendono significativamente al di sotto delle soglie di capacità e che una cronologia informerà gli aggiornamenti (come Amazon) e Naver, che valuta i sistemi trimestralmente (o prima in base agli aumenti delle metriche). Questo quadro riconosce che, in alcune aree, potrebbe essere utile concretizzare ulteriormente gli impegni. Gli aggiornamenti delle politiche sono spesso approvati dal consiglio di amministrazione, nonché da numerosi esperti in materia e di governance.
Modifiche alle politiche e implementazione
Il processo di aggiornamento delle politiche prevede diverse fasi chiave. Le modifiche proposte in genere provengono da stakeholder interni, come il CEO, il Responsible Scaling Officer o il Frontier AI Governance Board, composto da esperti in materia. Queste proposte sono quindi soggette a revisione e approvazione da parte di organi di governo superiori, come il Consiglio di Amministrazione o il Comitato Esecutivo di Leadership. Molte politiche incorporano anche feedback esterni e benchmarking rispetto agli standard di settore per garantire che le pratiche rimangano allineate ai quadri globali in evoluzione. Per mantenere la trasparenza, le aziende si impegnano spesso a pubblicare versioni aggiornate delle loro politiche, insieme a log delle modifiche che descrivono in dettaglio le modifiche apportate e la logica alla base di esse. Questi aggiornamenti facilitano il dialogo continuo con le parti interessate e promuovono una comprensione condivisa del panorama in evoluzione della sicurezza dell’IA.
Soglie di Capacità
Le descrizioni dei livelli di capacità dell’IA che rappresenterebbero un rischio grave e richiederebbero nuove mitigazioni robuste sono un elemento centrale nel panorama delle politiche di sicurezza dell’IA di frontiera. La maggior parte delle politiche studiate definisce meticolosamente soglie di capacità pericolose, utilizzandole come punti di riferimento rispetto ai risultati delle valutazioni dei modelli per accertare se tali livelli critici sono stati superati. La Responsible Scaling Policy di Anthropic, ad esempio, utilizza i concetti di Soglie di Capacità e Salvaguardie Richieste, specificando le soglie relative alle armi CBRN e alla R&S autonoma dell’IA e identificando le corrispondenti Salvaguardie Richieste volte a mitigare il rischio a livelli accettabili. Il Preparedness Framework di OpenAI stabilisce una scala di gradazione per le categorie di rischio monitorate, che vanno da “basso” a “critico”, consentendo l’applicazione proattiva di mitigazioni su misura man mano che le minacce aumentano. Il Frontier Safety Framework di Google DeepMind delinea due insiemi di Livelli di Capacità Critica (CCL): CCL di uso improprio che indicano un rischio maggiore di danni gravi derivanti dall’uso improprio e CCL di allineamento ingannevole che indicano un rischio maggiore di eventi correlati all’allineamento ingannevole.
In generale, queste soglie di capacità sono intrinsecamente collegate ai modelli di minaccia sottostanti, che sono percorsi plausibili attraverso i quali i sistemi di frontiera possono portare a danni catastrofici. Alcuni dei modelli di minaccia più comunemente trattati includono: assistenza alle armi biologiche, in cui i modelli di IA potrebbero aiutare gli attori malintenzionati a sviluppare armi biologiche catastrofiche; cyberoffense, in cui i modelli di IA potrebbero consentire agli attori di automatizzare o migliorare gli attacchi informatici; e ricerca e sviluppo di IA automatizzata, in cui i modelli di IA potrebbero accelerare lo sviluppo dell’IA a un livello umano esperto. Altre capacità considerate, sebbene non universalmente, includono la replica autonoma, la persuasione avanzata e l’allineamento ingannevole. Questi modelli di minaccia e soglie di capacità aiutano ad allineare le politiche di sicurezza dell’IA con strategie proattive di gestione del rischio.
In particolare, ci sono deviazioni negli approcci al rischio, con alcune politiche, come i framework di Nvidia e Cohere, che pongono maggiore enfasi sui rischi specifici del dominio rispetto alla semplice focalizzazione sui rischi catastrofici. Inoltre, le politiche di sicurezza di xAI e Magic si distinguono per la forte ponderazione dei parametri di riferimento quantitativi nella valutazione dei loro modelli, una deviazione dalla maggior parte delle loro controparti. Indipendentemente da queste sfumature uniche, prevalgono temi comuni: tutte le politiche di sicurezza di frontiera riflettono una chiara attenzione all’identificazione e alla gestione delle capacità di IA che potrebbero rappresentare un danno materiale. Attraverso framework dettagliati, strategie di mitigazione specifiche, modellazione delle minacce o test e audit rigorosi, mirano tutte a mitigare i rischi dei sistemi avanzati di Intelligenza Artificiale.