Strumento Petri: Auditing AI Sicuro e Automatizzato

Anthropic Lancia il Tool Petri per Automatizzare gli Audit di Sicurezza dell’IA

Anthropic ha recentemente presentato Petri (Parallel Exploration Tool for Risky Interactions), uno strumento open-source progettato per eseguire audit di sicurezza automatizzati su modelli di linguaggio di grandi dimensioni (LLM). Questo strumento utilizza agenti autonomi per identificare comportamenti rischiosi nei modelli di IA, con l’obiettivo di rendere la ricerca sulla sicurezza dell’IA più collaborativa e standardizzata.

Funzionamento di Petri

Petri effettua test autonomi su modelli di IA, segnalando tendenze come decezione, whistleblowing, cooperazione con abusi e facilitazione del terrorismo. Finora, l’azienda ha auditato 14 modelli di punta, tra cui il proprio Claude Sonnet 4.5, OpenAI GPT-5, Google Gemini 2.5 Pro e xAI Corp. Grok-4, riscontrando comportamenti problematici in tutti.

I modelli sono stati testati su 111 compiti rischiosi suddivisi in quattro categorie di sicurezza: decezione, cercare potere, leccapiedi e fallimento di rifiuto. Claude Sonnet 4.5 ha ottenuto il punteggio migliore complessivo, sebbene siano stati rilevati problemi di disallineamento in ogni modello.

Audit e Valutazione

Petri lancia agenti auditor che interagiscono con i modelli in vari modi, mentre un modello giudice classifica le uscite in base a metriche di onestà e rifiuto, contrassegnando le risposte rischiose per una revisione umana. Gli sviluppatori possono utilizzare i prompt inclusi, il codice di valutazione e le linee guida per estendere le capacità di Petri, riducendo notevolmente lo sforzo di testing manuale.

Comportamenti di Whistleblowing

Nel contesto del comportamento di whistleblowing, i ricercatori di Anthropic hanno osservato: “Mentre eseguivamo Petri con il nostro variegato set di istruzioni seme, abbiamo notato diverse istanze di modelli che tentavano di whistleblow — divulgando autonomamente informazioni su presunti illeciti organizzativi. Sebbene questo possa svolgere un ruolo importante nel prevenire danni su larga scala, non è un comportamento generalmente appropriato per i sistemi di IA attuali: ci sono gravi considerazioni sulla privacy e il potenziale di perdite derivanti da tentativi confusi di whistleblowing è sostanziale.”

Limitazioni e Prospettive Future

Pur avendo delle limitazioni, come la possibilità che i modelli giudice ereditino bias e che alcuni agenti possano avvertire accidentalmente i modelli in fase di test, Anthropic spera che l’apertura dello strumento renda la ricerca sull’allineamento più trasparente, collaborativa e standardizzata. Spostando il testing della sicurezza dell’IA da benchmark statici a audit automatizzati e continui, Petri consente alla comunità di monitorare e migliorare collettivamente il comportamento degli LLM.

More Insights

Responsabilità nell’Intelligenza Artificiale: Un Imperativo Ineludibile

Le aziende sono consapevoli della necessità di un'IA responsabile, ma molte la trattano come un pensiero secondario. È fondamentale integrare pratiche di dati affidabili sin dall'inizio per evitare...

Il nuovo modello di governance dell’IA contro il Shadow IT

Gli strumenti di intelligenza artificiale (IA) si stanno diffondendo rapidamente nei luoghi di lavoro, trasformando il modo in cui vengono svolti i compiti quotidiani. Le organizzazioni devono...

Piani dell’UE per un rinvio delle regole sull’IA

L'Unione Europea sta pianificando di ritardare l'applicazione delle normative sui rischi elevati nell'AI Act fino alla fine del 2027, per dare alle aziende più tempo per adattarsi. Questo cambiamento...

Resistenza e opportunità: il dibattito sul GAIN AI Act e le restrizioni all’export di Nvidia

La Casa Bianca si oppone al GAIN AI Act mentre si discute sulle restrizioni all'esportazione di chip AI di Nvidia verso la Cina. Questo dibattito mette in evidenza la crescente competizione politica...

Ritardi normativi e opportunità nel settore medtech europeo

Un panel di esperti ha sollevato preoccupazioni riguardo alla recente approvazione dell'AI Act dell'UE, affermando che rappresenta un onere significativo per i nuovi prodotti medtech e potrebbe...

Innovazione Etica: Accelerare il Futuro dell’AI

Le imprese stanno correndo per innovare con l'intelligenza artificiale, ma spesso senza le dovute garanzie. Quando privacy e conformità sono integrate nel processo di sviluppo tecnologico, le aziende...

Rischi nascosti dell’IA nella selezione del personale

L'intelligenza artificiale sta trasformando il modo in cui i datori di lavoro reclutano e valutano i talenti, ma introduce anche significativi rischi legali sotto le leggi federali contro la...

L’intelligenza artificiale nella pubblica amministrazione australiana: opportunità e sfide

Il governo federale australiano potrebbe "esplorare" l'uso di programmi di intelligenza artificiale per redigere documenti sensibili del gabinetto, nonostante le preoccupazioni riguardo ai rischi di...

Regolamento Europeo sull’Intelligenza Artificiale: Innovare con Responsabilità

L'Unione Europea ha introdotto la Regolamentazione Europea sull'Intelligenza Artificiale, diventando la prima regione al mondo a stabilire regole chiare e vincolanti per lo sviluppo e l'uso dell'IA...