Governing AI Risks: L’approccio incentrato sulla sicurezza di Anthropic

Man mano che i sistemi di IA diventano sempre più sofisticati, la necessità di robuste misure di sicurezza diventa fondamentale. Questo lavoro esplora le strategie critiche impiegate per governare i rischi associati allo sviluppo avanzato dell’IA. Si addentra in un sistema multi-sfaccettato progettato per valutare, monitorare e mitigare attentamente i potenziali pericoli, garantendo che queste potenti tecnologie siano implementate in modo responsabile. Comprendere questi meccanismi di governance del rischio è essenziale per navigare nel complesso panorama dell’IA moderna e promuovere la sua integrazione sicura e vantaggiosa nella società.

Quali misure vengono impiegate da Anthropic per la governance del rischio nello sviluppo e nella implementazione dell’IA

La strategia di governance del rischio di Anthropic si basa su un sistema a livelli chiamato Standard del Livello di Sicurezza dell’IA (ASL). Questi standard sono fondamentali per valutare e mitigare i rischi associati a modelli di IA sempre più capaci. L’approccio prevede una combinazione di misure tecniche, operative e politiche per garantire uno sviluppo e un’implementazione responsabili dell’IA.

Componenti fondamentali della governance del rischio IA di Anthropic

Standard del Livello di Sicurezza dell’IA (Standard ASL): Questi standard sono suddivisi in Standard di Implementazione e Standard di Sicurezza. Gli Standard di Implementazione si concentrano sull’uso sicuro da parte di utenti interni ed esterni, mentre gli Standard di Sicurezza mirano a proteggere i modelli di IA da accessi non autorizzati o furti. Tutti i modelli attuali devono soddisfare almeno ASL-2.
Soglie di Capacità: Si tratta di livelli predefiniti di capacità dell’IA che, una volta raggiunti, attivano la necessità di standard ASL più elevati. Indicano un aumento significativo del rischio che richiede salvaguardie potenziate. Le Soglie di Capacità specifiche includono preoccupazioni relative ad armi chimiche, biologiche, radiologiche e nucleari (CBRN) e alla Ricerca e Sviluppo (R&S) autonoma dell’IA.
Salvaguardie Richieste: Rappresentano le misure di sicurezza specifiche necessarie per ogni Soglia di Capacità per mitigare i rischi a livelli accettabili. Agiscono come l’implementazione pratica degli Standard ASL.
Valutazione della Capacità: Comporta test preliminari e completi per determinare se le capacità di un modello superano le Soglie di Capacità stabilite. Se le soglie vengono superate, i modelli vengono aggiornati alle Salvaguardie Richieste ASL-3.
Valutazione delle Salvaguardie: Valuta se le misure implementate soddisfano le Salvaguardie Richieste ASL-3. Ciò include red-teaming, modellazione delle minacce e la creazione di solidi framework di sicurezza.
Valutazione di Follow-up della Capacità: Condotta in concomitanza con l’aggiornamento di un modello alle Salvaguardie Richieste ASL-3 per garantire che non siano necessarie ulteriori salvaguardie.

Strumenti e Processi Pratici

Per determinare che lo Standard ASL-2 rimanga appropriato, Anthropic conduce regolarmente controlli su modelli nuovi ed esistenti, a partire da una valutazione preliminare. Gli aspetti chiave di tale processo includono:

Misurazione delle prestazioni su test automatizzati
Tenere traccia dell’affinamento cumulativo dall’ultima valutazione completa.

Se questi controlli vengono superati, non sono necessari ulteriori test. Quando è necessario un ciclo di test più completo, l’azienda si impegna in una valutazione più approfondita per garantire che i rischi rimangano al di sotto della soglia.

Governance e Trasparenza

L’impegno di Anthropic per un’IA responsabile si estende ai processi interni e alla trasparenza esterna. Le misure chiave includono:

Responsabile del Ridimensionamento Responsabile: Un membro del personale designato responsabile di garantire la progettazione e l’attuazione efficaci della Politica di Ridimensionamento Responsabile.
Procedure di Sicurezza Interne: Sviluppo di procedure per scenari di incidente, come la sospensione della formazione o la risposta a violazioni della sicurezza.
Trasparenza: Pubblicazione di informazioni chiave relative alla valutazione e all’implementazione del modello, inclusi riepiloghi dei Rapporti di Capacità e Salvaguardie.
Input di Esperti: Sollecitare attivamente input da esperti esterni in domini rilevanti per informare le valutazioni di capacità e salvaguardie.
Supervisione del Consiglio di Amministrazione: Le modifiche alla loro Politica di Ridimensionamento Responsabile sono proposte dal CEO e dal Responsabile del Ridimensionamento Responsabile e approvate dal Consiglio di Amministrazione, in consultazione con il Long-Term Benefit Trust.

Implicazioni Regolamentari e Politiche

Anthropic intende che la sua Politica di Ridimensionamento Responsabile informi le migliori pratiche del settore e potenzialmente serva da prototipo per le future normative sull’IA. La politica è progettata per essere proporzionale, iterativa ed esportabile, bilanciando l’innovazione con rigorose misure di sicurezza.

Quali standard di sicurezza sono implementati per l’addestramento e la distribuzione dei modelli di intelligenza artificiale di Anthropic

Anthropic adotta un approccio basato sul rischio alla sicurezza dell’IA, utilizzando gli standard ASL (AI Safety Level, Livello di Sicurezza dell’IA). Questi standard consistono in misure tecniche e operative progettate per garantire l’addestramento e la distribuzione sicuri dei modelli di IA all’avanguardia.

Standard ASL: Distribuzione e Sicurezza

Attualmente, le definizioni ASL sono suddivise in due categorie:

Standard di Distribuzione: Questi standard includono misure adottate per garantire che i modelli di IA siano utilizzati in modo sicuro, allineando i controlli tecnici, operativi e politici per mitigare potenziali usi impropri catastrofici sia da parte di utenti esterni (cioè, utenti e clienti di Anthropic) che da parte di utenti interni (cioè, dipendenti di Anthropic).
Standard di Sicurezza: Questi standard includono misure tecniche, operative e politiche per proteggere i modelli di IA da accessi non autorizzati, furto o compromissione dei sistemi interni da parte di attori malintenzionati.

Tutti i modelli Anthropic devono soddisfare gli standard ASL-2 di Distribuzione e Sicurezza, che includono:

Pubblicazione di Model Cards che descrivono le capacità, i limiti, le valutazioni e i casi d’uso previsti del modello.
Applicazione di una Politica di Utilizzo che limita i casi d’uso catastrofici e ad alto potenziale di danno, come la generazione di contenuti che pongono gravi rischi per l’umanità o causano danni diretti agli individui.
Utilizzo dell’addestramento all’innocuità, come l’IA Costituzionale, e meccanismi di rilevamento automatizzati per addestrare i modelli a rifiutare richieste che aiutano a causare danni.
Fornire agli utenti canali di segnalazione delle vulnerabilità e una bug bounty per jailbreak universali.
Adesione a rigorose revisioni di sicurezza di fornitori e provider, misure di sicurezza fisica, utilizzo di principi di secure-by-design e implementazione di infrastrutture di sicurezza standard, software di monitoraggio, strumenti di gestione degli accessi e crittografia del disco.

Attivazione di Standard Più Elevati: Soglie di Capacità e Salvaguardie Richieste

Man mano che le capacità dei modelli di IA aumentano, Anthropic utilizza un sistema di Soglie di Capacità e Salvaguardie Richieste per determinare quando le misure di sicurezza devono essere rafforzate. Una Soglia di Capacità indica quando è necessario un aggiornamento delle protezioni, attivando un passaggio da uno standard ASL-N a uno standard ASL-N+1, o anche superiore. Le Salvaguardie Richieste specificano quindi quali standard ASL devono essere soddisfatti. Le esigenze specifiche dei diversi modelli di IA varieranno, quindi non è sempre necessario aggiornare simultaneamente gli standard di Distribuzione e Sicurezza.

Valutazione delle Capacità del Modello

Anthropic conduce valutazioni rigorose per determinare se le capacità di un modello superano le Soglie di Capacità stabilite. Ciò comporta:

Valutazioni Preliminari: Queste valutazioni vengono condotte per determinare se è necessaria una valutazione più completa e confrontare i modelli in base ai Test Automatizzati in Domini Rilevanti per il Rischio e all’impatto dei Metodi di Fine-Tuning.
Test Approfonditi: Se le valutazioni preliminari indicano che il modello si sta avvicinando a una linea rossa, questo test valuterà se è improbabile che il modello raggiunga una qualsiasi Soglia di Capacità rilevante in assenza di sorprendenti progressi nei miglioramenti post-addestramento ampiamente accessibili. Questo test deve soddisfare criteri quali la Mappatura del Modello di Minaccia, l’esecuzione di Valutazioni Empiriche, la dimostrazione di risultati limitati di Elicitazione e la Previsione.

Se i test approfonditi rivelano che è probabile che un modello superi una Soglia di Capacità, Anthropic si comporterà come se la soglia fosse stata superata, passando alle Salvaguardie Richieste ASL-3 e conducendo un follow-up per valutare la necessità di Standard ASL-4.

Garantire Salvaguardie Adeguate: Requisiti ASL-3

Per soddisfare le Salvaguardie Richieste ASL-3, Anthropic condurrà una valutazione delle salvaguardie per:

Valutare se le misure implementate sono robuste contro i tentativi persistenti di utilizzare in modo improprio capacità pericolose conducendo Threat Modeling, istituendo la Difesa in Profondità, il Red-Teaming, la Remediation Rapida e stabilendo il Monitoraggio.
Garantire che i modelli siano altamente protetti dalla maggior parte degli Attaccanti che tentano di rubare i pesi del modello utilizzando le Best Practice di Governance, applicando Framework di Sicurezza, sottoponendosi a Audit e assicurando che le misure possano essere utilizzate all’interno di Ambienti di Terze Parti.

Se le Salvaguardie Richieste ASL-3 non possono essere implementate immediatamente, verranno applicate misure di mitigazione del rischio ad interim.

Governance e Trasparenza

Per facilitare l’implementazione efficace di questa politica in tutta l’azienda, Anthropic si è impegnata a diverse misure di governance interna:

Mantenere la posizione di Responsible Scaling Officer, per supervisionare la progettazione e l’implementazione efficaci delle politiche.
Stabilire processi per ricevere notifiche anonime attraverso le quali il personale di Anthropic può notificare al Responsible Scaling Officer potenziali casi di non conformità.
Sviluppare procedure di sicurezza interne per scenari di incidenti.

Per promuovere il dialogo pubblico sulla regolamentazione dei rischi dei modelli di IA all’avanguardia e per consentire l’esame delle azioni di Anthropic, l’azienda si impegnerà a:

Rilasciare pubblicamente materiali chiave, con rimozione delle informazioni sensibili, relativi alla valutazione e alla distribuzione dei modelli di IA.
Richiedere input da esperti esterni in domini rilevanti.

Come vengono utilizzate le soglie di capacità per determinare la necessità di maggiori tutele

Il concetto di “Soglie di Capacità” è al centro della governance del rischio dell’IA. Queste soglie fungono da fattori scatenanti cruciali, segnalando quando le capacità di un modello di IA hanno raggiunto un punto in cui le tutele esistenti non sono più sufficienti e devono essere aggiornate. Pensate a questo come alla linea rossa su un motore: una volta superata, sono essenziali misure di protezione più robuste.

Nello specifico, una Soglia di Capacità indica:

Un aumento significativo del livello di rischio se il modello rimane soggetto alle tutele attuali.
Una corrispondente necessità di aggiornare le tutele a uno Standard di Livello di Sicurezza dell’IA (ASL) superiore.

In pratica, il superamento di una Soglia di Capacità innesca il passaggio da uno Standard ASL-N a uno Standard ASL-N+1 (o in alcuni casi, direttamente a un livello ancora più alto). La risposta appropriata (come l’implementazione delle tutele ASL-3) è determinata da:

Valutazione delle capacità: I modelli vengono testati regolarmente per determinare quanto sono vicini a superare le soglie di capacità predefinite. Le valutazioni preliminari stabiliscono quando sono necessari test più completi.
Mappatura del modello di minaccia: Mappatura dei casi più probabili.
Elicitazione e Valutazione: Dimostrazione che, quando vengono fornite risorse sufficienti per estrapolare ad aggressori realistici, i ricercatori non possono ottenere risultati utili dal modello sulle attività pertinenti.
Tutele richieste corrispondenti: A seconda della soglia superata, le specifiche Tutele richieste delineano quali standard ASL devono essere soddisfatti. Potrebbe non essere sempre necessario aggiornare sia gli Standard di Implementazione che di Sicurezza.

L’identificazione e l’applicazione di queste Soglie di Capacità sono una pietra angolare della gestione proporzionale del rischio nello sviluppo dell’IA. Monitorando attentamente le capacità del modello e rispondendo con adeguate tutele potenziate, gli sviluppatori mirano a bilanciare l’innovazione con la sicurezza, garantendo che l’IA avvantaggi la società senza causare danni inaccettabili.

Quali sono le Salvaguardie Obbligatorie designate associate alle varie Soglie di Capacità

Man mano che i modelli di IA evolvono oltre la linea di base ASL-2, il settore riconosce che soglie di capacità più elevate richiedono salvaguardie più robuste. Una Soglia di Capacità agisce come un trigger, segnalando la necessità di aggiornare le protezioni a un livello superiore di Standard di Livello di Sicurezza dell’IA (ASL).

Punti chiave:

Le Salvaguardie Obbligatorie sono progettate per mitigare i rischi a livelli accettabili, indicando un equilibrio tra i benefici dello sviluppo del modello di frontiera e i potenziali pericoli.
Anthropic sostiene l’adozione completa di questi standard in tutto il settore, sottolineando l’importanza di investire in ricerca e sviluppo per un’implementazione solida.

Armi CBRN

Le capacità di sviluppo di armi chimiche, biologiche, radiologiche e nucleari (CBRN) attivano diverse salvaguardie:

CBRN-3: La capacità di aiutare in modo significativo gli individui con background STEM di base nella creazione/ottenimento e nell’implementazione di armi CBRN. Questo trigger richiede sia uno Standard di Implementazione ASL-3 che uno Standard di Sicurezza ASL-3, proteggendo dall’uso improprio e dal furto di pesi del modello da parte di attori non statali.
CBRN-4: La capacità di incrementare sostanzialmente le capacità di sviluppo CBRN di programmi statali moderatamente dotati di risorse. Si prevede che questa soglia richiederà standard di implementazione e sicurezza ASL-4; ulteriori dettagli saranno rilasciati in un futuro aggiornamento.

Ricerca e Sviluppo di IA Autonoma

Le capacità di Ricerca e Sviluppo di IA Autonoma attivano anche specifiche salvaguardie:

AI R&D-4: La capacità di automatizzare completamente il lavoro di un ricercatore entry-level, solo da remoto, presso Anthropic. Richiede lo Standard di Sicurezza ASL-3 e un caso affermativo che identifichi e mitighi i rischi immediati derivanti da modelli che perseguono obiettivi disallineati.
AI R&D-5: La capacità di causare un’accelerazione drammatica nel tasso di richieste di scalatura efficaci richiede, come minimo, lo Standard di Sicurezza ASL-4 (potenzialmente superiore) insieme a un caso affermativo.

Il potenziale checkpoint di Autonomia del Modello per eseguire autonomamente una vasta gamma di attività di ingegneria del software di 2-8 ore attiverà l’implementazione della Sicurezza ASL-3.

Considerazioni sulle Operazioni Cibernetiche:

La capacità di migliorare o automatizzare in modo significativo attacchi informatici distruttivi sofisticati è riconosciuta come una capacità che richiede un’indagine significativa. Ciò implica il coinvolgimento di esperti di sicurezza informatica per valutare il potenziale dei modelli di frontiera sia per migliorare che per mitigare le minacce informatiche e per considerare controlli di accesso a più livelli o implementazioni graduali.

Come valuta Anthropic le capacità dei suoi modelli di IA

Anthropic impiega un approccio a più livelli per valutare le capacità dei suoi modelli di IA, garantendo una scalabilità responsabile che si allinei ai potenziali rischi. Il loro framework si concentra sugli standard di livello di sicurezza dell’IA (standard ASL), in cui l’aumento delle capacità del modello richiede tutele più forti. L’azienda esegue regolarmente test sui modelli per verificare se sono sufficientemente al di sotto di determinate soglie di capacità da consentire allo standard ASL-2 di rimanere adeguato.

Soglie di capacità

Le soglie di capacità agiscono come trigger, indicando quando le garanzie esistenti devono essere aggiornate a uno standard ASL superiore. Queste soglie sono livelli di capacità predeterminati che, se raggiunti, indicano un aumento significativo del rischio, rendendo necessarie protezioni potenziate. L’approccio di Anthropic mira in particolare ai rischi catastrofici come quelli relativi alle armi chimiche, biologiche, radiologiche e nucleari (CBRN) e alla ricerca e sviluppo di IA autonoma (AI R&S).

Procedure di valutazione

Anthropic utilizza un processo di valutazione a più fasi:

Valutazioni preliminari: Queste valutazioni iniziali determinano se un modello richiede un’analisi più approfondita (“valutazione completa”). Ciò si attiva se il modello è “notevolmente più capace”, il che è definito come: 1. notevolmente più performante nei test automatizzati in domini rilevanti per il rischio (definito come 4 volte o più in Effective Compute), oppure 2. Sono accumulati sei mesi di messa a punto e altri metodi di estrapolazione della capacità. Inoltre, il Responsible Scaling Officer può, a sua discrezione, determinare che una valutazione completa è giustificata.
Valutazioni complete: Per i modelli che superano i criteri di valutazione preliminare, una valutazione completa valuta la probabilità di raggiungere le soglie di capacità. Questo processo comporta:
- Mappatura del modello di minaccia: Presentare un valido motivo per cui abbiamo mappato i modelli di minaccia più probabili e consequenziali.
- Valutazioni: Progettare ed eseguire test empirici che forniscano prove concrete che il modello non possiede le competenze richieste.
- Estrapolazione: Dimostrare che, quando vengono fornite risorse sufficienti per estrapolare ad aggressori realistici, i ricercatori non possono ottenere risultati sufficientemente utili dal modello sulle attività pertinenti.
- Previsione: Effettuare previsioni informali sulla probabilità che un’ulteriore formazione ed estrapolazione migliorino i risultati dei test tra il momento del test e il prossimo ciclo previsto di test completi.

Processo decisionale

A seguito della valutazione approfondita, un rapporto sulle capacità documenta i risultati e presenta un caso in cui si dimostra se il modello rimane sufficientemente al di sotto delle soglie di capacità: il rapporto viene sottoposto al CEO e al Responsible Scaling Officer, i quali (1) prenderanno la decisione definitiva in merito alla sufficiente dimostrazione dell’improbabilità di raggiungere la soglia di capacità e (2) decideranno eventuali problemi relativi alla distribuzione. In generale, come indicato nelle Sezioni 7.1.4 e 7.2.2, richiederemo feedback di esperti interni ed esterni sul rapporto, nonché le conclusioni del CEO e del RSO, per informare i futuri perfezionamenti della nostra metodologia.

Se si ritiene che il modello abbia superato una soglia, Anthropic esegue un aggiornamento alle tutele richieste ASL-3 ed esegue una valutazione di capacità di follow-up per garantire che gli standard ASL-4 non siano necessari.

Trasparenza e governance

Anthropic sottolinea la trasparenza rilasciando pubblicamente materiali chiave relativi alla valutazione e alla distribuzione dei suoi modelli, dopo aver rimosso le informazioni sensibili. L’azienda si impegna inoltre a misure di governance interna, tra cui il mantenimento di un Responsible Scaling Officer, la creazione di canali di segnalazione anonimi per la potenziale non conformità e lo sviluppo di procedure di sicurezza interne per la risposta agli incidenti.

Quali processi sono fondamentali per valutare l’efficacia delle misure di sicurezza implementate

Valutare l’efficacia delle misure di sicurezza implementate è un processo multiforme che coinvolge una rigorosa valutazione e un miglioramento continuo. Ecco la scomposizione:

Valutazione delle misure di sicurezza

Questa valutazione è fondamentale per determinare se le misure implementate soddisfano le misure di sicurezza richieste ASL-3. Un rapporto sulle misure di sicurezza documenta accuratamente l’implementazione di queste misure.

Valutazione standard di implementazione ASL-3: valuta la robustezza contro tentativi di uso improprio persistenti. Ciò implica:

Modellazione delle minacce: mappatura critica dei potenziali vettori di uso improprio catastrofico.
Difesa in profondità: costruzione di difese a strati per intercettare l’uso improprio. Utilizzo di tecniche di rifiuto del danno.
Red-Teaming: dimostrare che gli attori delle minacce realistiche non possono sollecitare costantemente risposte che aumentino la loro capacità di causare danni catastrofici.
Rimedio rapido: identificazione e correzione rapida delle compromissioni del sistema.
Monitoraggio: revisione continua delle prestazioni del sistema rispetto agli intervalli di rischio accettati. Monitoraggio delle risposte ai bounty di jailbreak, esecuzione di analisi storiche e monitoraggio in background.
Utenti fidati: definizione di criteri per la condivisione di modelli con misure di sicurezza ridotte con utenti fidati utilizzando una combinazione di controllo degli utenti, controlli di accesso sicuri, monitoraggio, conservazione dei log e protocolli di risposta agli incidenti.
Ambienti di terze parti: documentazione di come tutti i modelli soddisferanno questi criteri, anche in implementazioni di terze parti con diverse misure di sicurezza.

Valutazione standard di sicurezza ASL-3: determina se le misure sono altamente protette contro il furto di peso del modello. Ciò implica:

Modellazione delle minacce: utilizzo di framework come MITRE ATT&CK per mappare minacce, risorse e vettori di attacco.
Allineamento ai framework di sicurezza: utilizzo di framework di sicurezza standard del settore per i rischi identificati.
- Costruzione di perimetri robusti e controlli di accesso che garantiscano la protezione da accessi non autorizzati. Ciò include una combinazione di sicurezza fisica, crittografia, sicurezza del cloud, policy dell’infrastruttura, gestione degli accessi e minimizzazione e monitoraggio dell’accesso ai pesi.
- Protezione dei collegamenti nella catena di sistemi e software utilizzati per sviluppare i modelli, per impedire l’introduzione di componenti compromessi e per garantire che vengano utilizzati solo codice e hardware fidati. Ciò include una combinazione di inventario del software, sicurezza della supply chain, integrità degli artefatti, autorizzazione binaria, approvvigionamento hardware e ciclo di vita sicuro dello sviluppo della ricerca.
- Identificazione e mitigazione proattiva delle minacce attraverso un monitoraggio continuo ed efficace, test per individuare le vulnerabilità e preparazione di trappole per potenziali aggressori. Ciò include una combinazione di patch degli endpoint, test di sicurezza dei prodotti, gestione dei log, monitoraggio degli asset e tecniche di inganno degli intrusi.
- Investimento di risorse sufficienti nella sicurezza. Il rispetto di questo standard di sicurezza richiede che circa il 5-10% dei dipendenti sia dedicato alla sicurezza e al lavoro adiacente alla sicurezza.
- Allinearsi, ove opportuno, con le linee guida esistenti sulla protezione dei pesi dei modelli.
Audit: audit della progettazione e dell’implementazione del programma di sicurezza, condivisione dei risultati con la direzione. Ciò include la convalida indipendente della modellazione delle minacce e dei risultati della valutazione dei rischi; un audit a campione dell’efficacia operativa dei controlli definiti; e test periodici, ad ampio raggio e indipendenti con red-teamers esperti, rinomati nel settore e riconosciuti in sfide competitive.
Ambienti di terze parti: documentazione di come tutti i modelli soddisfaranno questi criteri, anche in implementazioni di terze parti con diverse misure di sicurezza.

Processo decisionale sulle misure di sicurezza

Il processo per determinare se le misure di sicurezza richieste ASL-3 sono state soddisfatte include:

Compilazione di un rapporto sulle misure di sicurezza per ogni misura di sicurezza richiesta. Presentazione di un caso affermativo per la loro soddisfazione.
Trasmissione del/dei rapporto/i sulle misure di sicurezza al CEO e al responsabile del ridimensionamento responsabile.
Richiesta di feedback di esperti interni ed esterni sul rapporto.
Condivisione della decisione, del rapporto sulle misure di sicurezza, del feedback interno ed esterno con il consiglio di amministrazione e il trust per i benefici a lungo termine.
Rivedere e riapprovare le misure di sicurezza richieste ASL-3 almeno annualmente.

Valutazione della capacità di follow-up

Parallelamente all’aggiornamento di un modello alle misure di sicurezza richieste, la policy viene aggiornata per includere eventuali soglie di capacità aggiuntive e viene condotta una valutazione della capacità di follow-up.

Governance e trasparenza

La governance interna coinvolge il responsabile del ridimensionamento responsabile, che è responsabile della progettazione e dell’implementazione della policy. La valutazione esterna prevede la collaborazione con esperti esterni nei domini pertinenti nel processo di sviluppo e conduzione di valutazioni delle capacità e delle misure di sicurezza. L’azienda cerca anche una revisione della conformità procedurale e prevede di informare un’entità governativa statunitense competente se un modello richiede protezioni più solide rispetto allo standard ASL-2.

Qual è la procedura per determinare strategie di implementazione appropriate e risultati di scalabilità per i modelli Anthropic

Anthropic impiega un processo strutturato in più fasi per determinare strategie di implementazione appropriate e risultati di scalabilità per i suoi modelli di IA. Questo processo è guidato dalla Responsible Scaling Policy (RSP) e dalla sua dipendenza dagli standard AI Safety Level (ASL). L’obiettivo finale è prevenire danni catastrofici e mitigare il rischio a livelli accettabili, bilanciando l’innovazione con solide salvaguardie.

Valutazione delle Capacità

Il primo passo prevede una Valutazione delle Capacità, che determina quanto le capacità di un modello si avvicinino alle Soglie di Capacità stabilite. Queste soglie segnalano quando i potenziali rischi di un modello necessitano di salvaguardie potenziate (passando da ASL-2 a ASL-3, ad esempio). Il processo di valutazione include:

Valutazione Preliminare: Un controllo rapido per verificare se il modello è “notevolmente più capace” dei modelli precedenti. Le metriche qui sono test automatizzati in “domini rilevanti per il rischio” (miglioramento misurato come 4 volte in Effective Compute) o accumulo di miglioramenti post-formazione paragonabili a sei mesi di perfezionamenti continui.
Valutazione Completa: Richiesta se un modello supera la soglia “notevolmente più capace”. Questa valutazione testa rigorosamente il potenziale per raggiungere le Soglie di Capacità, esaminando combinazioni di attori, percorsi di attacco e cosa sarebbe necessario per causare danni. Questo include:
- Mappatura del modello di minaccia per identificare modelli di minaccia consequenziali probabili.
- Test empirici per dimostrare che il modello non ha capacità legate ai rischi.
- Esercizi di elicitazione per determinare se i ricercatori possono ottenere risultati utili, anche senza meccanismi di sicurezza.
- Previsioni su come un’ulteriore formazione può aumentare i risultati dei test.
Rapporto sulle Capacità: Un documento dettagliato che compila i risultati della valutazione per dimostrare che la Soglia di Capacità è sufficientemente lontana e promuovere raccomandazioni di implementazione. Questo documento, insieme al feedback interno ed esterno, va al CEO e al Responsible Scaling Officer di Anthropic per una decisione finale.

Se la valutazione completa dimostra che un modello è sufficientemente al di sotto di una Soglia di Capacità, può continuare l’implementazione soddisfacendo lo Standard ASL-2. Tuttavia, se la valutazione suggerisce che il modello ha possibilmente superato una soglia, si attiva un aggiornamento alle Salvaguardie Richieste ASL-3 insieme a una valutazione di follow-up delle capacità per determinare se lo Standard ASL-4 è necessario.

Valutazione delle Salvaguardie

Se un modello supera una Soglia di Capacità, viene avviata una Valutazione delle Salvaguardie per garantire un’adeguata mitigazione del rischio, verificando se le misure implementate soddisfano le Salvaguardie Richieste ASL-3. Questo processo include la creazione di un Rapporto sulle Salvaguardie per documentare le prove che il modello soddisfa i criteri degli standard di soglia:

Soddisfare gli Standard di Implementazione ASL-3 richiede una “difesa in profondità” utilizzando livelli per intercettare gli attacchi, red-teaming, correzione rapida e utenti fidati con controlli di sicurezza alternativi.
Soddisfare gli Standard di Sicurezza ASL-3 garantisce la protezione del peso del modello con controlli di sicurezza allineati al framework, modellazione delle minacce utilizzando MITRE ATT&CK Framework e controlli perimetrali e di accesso.

Se vengono trovate vulnerabilità, l’implementazione del modello è limitata. In caso contrario, l’implementazione può procedere.

Implementazione e Risultati di Scalabilità

In definitiva, Anthropic può procedere con l’implementazione e un’ulteriore scalabilità se:

Le capacità del modello sono lontane dalle Soglie di Capacità esistenti, in modo che il suo attuale ASL-2 sia appropriato.
Il modello ha superato le Soglie di Capacità ma soddisfa le Salvaguardie Richieste ASL-3.

Se un modello richiede salvaguardie ASL-3 ma queste salvaguardie non possono essere implementate in modo tempestivo, la politica impone un’azione rapida per ridurre il rischio provvisorio fino a quando non saranno in vigore le misure appropriate. Restrizioni più severe, come la disattivazione del modello o l’eliminazione dei pesi del modello, possono essere imposte se la mitigazione del rischio provvisorio non è plausibile. Inoltre, le attività di pre-formazione vengono monitorate per interrompere i modelli di formazione che si avvicinano o superano le capacità dei modelli attualmente esaminati a livello di Standard ASL-3 fino a quando non saranno implementate adeguate salvaguardie.

Governance e Trasparenza

Le misure di governance sono implementate internamente in tutta l’azienda per garantire la piena conformità alla Responsible Scaling Policy. Si ricercano input esterni e le informazioni chiave relative ai test di ciascun modello vengono spesso condivise pubblicamente, con la rimozione dei dettagli sensibili.

Quali protocolli sono in atto per affrontare scenari in cui le misure di sicurezza richieste non possono essere implementate immediatamente

Quando un modello raggiunge un punto in cui le Misure di Sicurezza Richieste ASL-3 sono ritenute necessarie, ma queste misure di sicurezza non possono essere messe in atto immediatamente, Anthropic si impegna ad adottare un approccio graduale alla mitigazione del rischio. L’obiettivo è ridurre il rischio intermedio a livelli accettabili fino a quando le misure di sicurezza complete ASL-3 non saranno operative:

Misure Intermedie

Il CEO e il Responsabile dello Scaling Responsabile (RSO) possono approvare misure intermedie che offrano lo stesso livello di garanzia dello Standard ASL-3, ma che siano più rapide o semplici da implementare. Queste potrebbero includere:

Blocco delle risposte del modello.
Downgrade a un modello meno capace in aree specifiche.
Aumento della sensibilità dei sistemi di monitoraggio automatizzato.
Memorizzazione dei pesi del modello in una rete isolata e monouso che soddisfi lo Standard di Sicurezza ASL-3.

Qualsiasi piano di questo tipo è condiviso con il Consiglio di Amministrazione di Anthropic e il Long-Term Benefit Trust.

Restrizioni Più Rigide

Se le misure intermedie sono insufficienti a mitigare adeguatamente il rischio, Anthropic implementerà restrizioni più severe, come:

De-implementazione del modello e sostituzione con un modello che rientra al di sotto della Soglia di Capacità. Una volta soddisfatti i requisiti dello Standard di Implementazione ASL-3, il modello può essere re-implementato.
Eliminazione dei pesi del modello nel contesto di sicurezza. Anthropic ritiene che, con l’uso di implementazione provvisoria e protezioni di sicurezza, raramente ci sarà bisogno di restrizioni più severe.

Monitoraggio del Pre-training

Anthropic non addestrerà modelli con capacità comparabili o superiori a quella che richiede lo Standard di Sicurezza ASL-3, operazionalizzato come 1x o più in Effective Compute, fino a quando lo Standard di Sicurezza ASL-3 non sarà implementato. Se le capacità del modello di pre-training sono comparabili o superiori, l’addestramento verrà interrotto fino a quando non saranno in atto misure di sicurezza sufficienti.

Quali strutture di governance interna supportano la Politica di Scaling Responsabile

Per implementare efficacemente la Politica di Scaling Responsabile (RSP) in tutta l’organizzazione, Anthropic si impegna a mantenere diverse misure chiave di governance interna. Queste strutture sono progettate per garantire conformità, trasparenza e responsabilità nello sviluppo e nella distribuzione dei modelli di IA.

Elementi Chiave di Governance

Responsabile dello Scaling Responsabile (RSO): Un membro designato del personale è responsabile della riduzione dei rischi catastrofici associati ai modelli di IA. I compiti del RSO includono la proposta di aggiornamenti delle politiche, l’approvazione delle decisioni di addestramento e distribuzione dei modelli in base alle valutazioni delle capacità e delle garanzie, la revisione dei principali contratti per la coerenza delle politiche, la supervisione dell’implementazione delle politiche, la gestione delle segnalazioni di non conformità, la notifica al Consiglio di Amministrazione della non conformità materiale e l’interpretazione della politica.
Preparazione agli Incidenti: Vengono sviluppate procedure di sicurezza interne per scenari di incidenti, come la sospensione dell’addestramento al raggiungimento delle Soglie di Capacità, la risposta a incidenti di sicurezza che coinvolgono i pesi dei modelli e la gestione di gravi jailbreak o vulnerabilità nei modelli distribuiti. Vengono condotte esercitazioni per garantire la preparazione a questi scenari.
Trasparenza Interna: I riassunti dei Rapporti sulle Capacità e dei Rapporti sulle Garanzie sono condivisi con il personale in possesso di autorizzazione ordinaria, con informazioni altamente sensibili redatte. Una versione minimamente redatta è condivisa con un sottoinsieme di personale per far emergere considerazioni rilevanti sulla sicurezza tecnica.
Revisione Interna: Il feedback viene sollecitato dai team interni sui Rapporti sulle Capacità e sulle Garanzie per affinare le metodologie e identificare le debolezze.
Procedure di Non Conformità: Viene mantenuto un processo per il personale di Anthropic per segnalare in modo anonimo potenziali casi di non conformità con la RSP. La politica di segnalazione della non conformità protegge i segnalatori da ritorsioni, stabilisce un meccanismo per l’inoltro delle segnalazioni al Consiglio di Amministrazione e impone il tracciamento, l’indagine e le azioni correttive per le segnalazioni comprovate. Il RSO aggiorna regolarmente il Consiglio sui casi sostanziali di non conformità e sulle tendenze generali.
Accordi con i Dipendenti: Non vengono imposti obblighi contrattuali di non denigrazione ai dipendenti, ai candidati o agli ex dipendenti in modo da impedire o scoraggiare la segnalazione pubblica di problemi di sicurezza relativi ad Anthropic. Gli accordi con clausole di non denigrazione non precluderanno la segnalazione di problemi di sicurezza o la divulgazione dell’esistenza della clausola.
Modifiche alle Politiche: Le modifiche alla RSP sono proposte dal CEO e dal RSO e approvate dal Consiglio di Amministrazione, in consultazione con il Long-Term Benefit Trust (LTBT). La versione attuale della RSP è accessibile online, con aggiornamenti resi pubblicamente disponibili prima che le modifiche entrino in vigore, insieme a un registro delle modifiche.

Come Anthropic garantisce la trasparenza e raccoglie input esterni sulle sue pratiche di sicurezza dell’IA

Anthropic mira a promuovere il dialogo pubblico sulla regolamentazione dell’IA e a garantire che le parti interessate possano esaminare le sue azioni attraverso diverse misure chiave:

Divulgazioni Pubbliche

L’azienda si impegna a pubblicare informazioni chiave riguardanti la valutazione e l’implementazione dei suoi modelli di IA. Questo esclude dettagli sensibili, ma include riassunti dei rapporti sulle Capacità e le Salvaguardie quando un modello viene implementato. Questi rapporti dettagliano le misure di sicurezza che sono state prese. Anthropic divulgherà anche i piani per le valutazioni complete attuali e future delle capacità, nonché le salvaguardie di implementazione e sicurezza. L’azienda intende rilasciare periodicamente informazioni sulle segnalazioni interne di potenziali incidenti di non conformità e altre sfide di implementazione che incontra.

Input di Esperti

Anthropic solleciterà competenze esterne durante lo sviluppo di valutazioni di capacità e salvaguardia. Questo processo di consultazione può anche estendersi prima del processo decisionale finale su tali valutazioni.

Notifica al Governo degli Stati Uniti

La politica impone la notifica a un’entità governativa statunitense competente qualora un modello necessiti di protezioni più forti rispetto allo Standard ASL-2.

Revisione della Conformità Procedurale

Su base approssimativamente annuale, Anthropic commissiona una revisione di terze parti per valutare se l’azienda ha aderito ai principali impegni procedurali della politica. Queste revisioni si concentrano specificamente sull’adesione ai requisiti del piano piuttosto che cercare di giudicare i risultati ottenuti. Anthropic conduce anche lo stesso tipo di revisioni internamente su una base più regolare.

Comunicazione Pubblica

Anthropic gestisce una pagina pubblica (www.anthropic.com/rsp-updates) per fornire panoramiche dei precedenti Rapporti sulle Capacità e le Salvaguardie, aggiornamenti relativi a RSP e piani per il futuro. La pagina fornisce dettagli per facilitare le conversazioni sulle migliori pratiche del settore per le salvaguardie, le valutazioni delle capacità e l’estrazione.

Governance e Trasparenza

La Responsible Scaling Policy (RSP) di Anthropic enfatizza sia la governance interna che la trasparenza esterna. Sono in atto misure chiave per garantire l’implementazione della policy, promuovere la responsabilità e favorire la collaborazione.

Governance Interna:

Responsible Scaling Officer (RSO): Un membro del personale designato supervisiona la riduzione del rischio garantendo l’efficace progettazione e implementazione della RSP. I compiti del RSO includono aggiornamenti delle policy, approvazioni delle decisioni, revisioni dei contratti, allocazione delle risorse e gestione delle segnalazioni di non conformità.
Readiness (Preparazione): Anthropic ha sviluppato procedure di sicurezza interne per scenari di incidenti, tra cui la sospensione dell’addestramento, la risposta a violazioni della sicurezza e la gestione delle vulnerabilità dei modelli.
Trasparenza: I riassunti dei Capability Reports e dei Safeguards Reports sono condivisi internamente per promuovere la consapevolezza e facilitare le considerazioni sulla sicurezza tecnica.
Revisione Interna: Viene sollecitato il feedback dai team interni sui Capability e Safeguards Reports per affinare le metodologie e identificare le debolezze.
Non conformità: Un processo consente al personale di segnalare anonimamente la non conformità alla policy al RSO. Una policy protegge i segnalanti da ritorsioni e stabilisce meccanismi di escalation. Tutte le segnalazioni vengono tracciate, investigate e affrontate con azioni correttive.
Accordi con i dipendenti: Gli obblighi contrattuali di non denigrazione sono strutturati in modo da non impedire o scoraggiare i dipendenti dall’esprimere preoccupazioni sulla sicurezza riguardo ad Anthropic.
Modifiche alle Policy: Le modifiche a questa policy vengono implementate solo dal CEO e dal Responsible Scaling Officer, previa approvazione del Consiglio di Amministrazione, in consultazione con il Long-Term Benefit Trust.

Trasparenza e Input Esterno:

Divulgazioni Pubbliche: Le informazioni chiave sulla valutazione e la distribuzione dei modelli vengono rilasciate pubblicamente, inclusi i riassunti dei Capability e Safeguards Reports, i piani per le valutazioni e i dettagli sulle misure di salvaguardia, previa redazione delle informazioni sensibili.
Input di Esperti: Esperti esterni vengono consultati durante le valutazioni delle capacità e delle salvaguardie e nei processi decisionali finali.
Avviso al Governo degli Stati Uniti: Un’entità governativa statunitense competente sarà informata se un modello richiede più protezioni rispetto a ASL-2.
Revisione della Conformità Procedurale: Su base approssimativamente annuale, e più regolarmente internamente, una terza parte si concentra sul fatto che le policy siano seguite, non su come i problemi siano stati risolti.

In definitiva, l’approccio stratificato di Anthropic alla sicurezza dell’IA mira a orientarsi nel complesso panorama delle capacità dell’IA in rapida evoluzione. Identificando proattivamente le soglie di rischio, valutando rigorosamente le capacità del modello e adattando di conseguenza le misure di salvaguardia, emerge una strategia proporzionale, progettata per promuovere l’innovazione mitigando al contempo i potenziali danni. L’impegno per la governance interna e la trasparenza esterna sottolinea una dedizione allo sviluppo responsabile dell’IA e alla continua ricerca delle migliori pratiche a beneficio della società.