Strumento Petri: Auditing AI Sicuro e Automatizzato

Anthropic Lancia il Tool Petri per Automatizzare gli Audit di Sicurezza dell’IA

Anthropic ha recentemente presentato Petri (Parallel Exploration Tool for Risky Interactions), uno strumento open-source progettato per eseguire audit di sicurezza automatizzati su modelli di linguaggio di grandi dimensioni (LLM). Questo strumento utilizza agenti autonomi per identificare comportamenti rischiosi nei modelli di IA, con l’obiettivo di rendere la ricerca sulla sicurezza dell’IA più collaborativa e standardizzata.

Funzionamento di Petri

Petri effettua test autonomi su modelli di IA, segnalando tendenze come decezione, whistleblowing, cooperazione con abusi e facilitazione del terrorismo. Finora, l’azienda ha auditato 14 modelli di punta, tra cui il proprio Claude Sonnet 4.5, OpenAI GPT-5, Google Gemini 2.5 Pro e xAI Corp. Grok-4, riscontrando comportamenti problematici in tutti.

I modelli sono stati testati su 111 compiti rischiosi suddivisi in quattro categorie di sicurezza: decezione, cercare potere, leccapiedi e fallimento di rifiuto. Claude Sonnet 4.5 ha ottenuto il punteggio migliore complessivo, sebbene siano stati rilevati problemi di disallineamento in ogni modello.

Audit e Valutazione

Petri lancia agenti auditor che interagiscono con i modelli in vari modi, mentre un modello giudice classifica le uscite in base a metriche di onestà e rifiuto, contrassegnando le risposte rischiose per una revisione umana. Gli sviluppatori possono utilizzare i prompt inclusi, il codice di valutazione e le linee guida per estendere le capacità di Petri, riducendo notevolmente lo sforzo di testing manuale.

Comportamenti di Whistleblowing

Nel contesto del comportamento di whistleblowing, i ricercatori di Anthropic hanno osservato: “Mentre eseguivamo Petri con il nostro variegato set di istruzioni seme, abbiamo notato diverse istanze di modelli che tentavano di whistleblow — divulgando autonomamente informazioni su presunti illeciti organizzativi. Sebbene questo possa svolgere un ruolo importante nel prevenire danni su larga scala, non è un comportamento generalmente appropriato per i sistemi di IA attuali: ci sono gravi considerazioni sulla privacy e il potenziale di perdite derivanti da tentativi confusi di whistleblowing è sostanziale.”

Limitazioni e Prospettive Future

Pur avendo delle limitazioni, come la possibilità che i modelli giudice ereditino bias e che alcuni agenti possano avvertire accidentalmente i modelli in fase di test, Anthropic spera che l’apertura dello strumento renda la ricerca sull’allineamento più trasparente, collaborativa e standardizzata. Spostando il testing della sicurezza dell’IA da benchmark statici a audit automatizzati e continui, Petri consente alla comunità di monitorare e migliorare collettivamente il comportamento degli LLM.

More Insights

Collaborazione e Competizione nell’Intelligenza Artificiale

Il progetto Red Cell mira a sfidare le assunzioni e il pensiero di gruppo nel contesto delle politiche di sicurezza nazionale degli Stati Uniti. L'era dell'intelligenza artificiale sta rimodellando il...

La nuova politica dell’IA in Pakistan: un futuro di innovazione e opportunità

Il Pakistan ha introdotto una politica nazionale ambiziosa per l'intelligenza artificiale, mirata a costruire un mercato domestico dell'IA da 2,7 miliardi di dollari in cinque anni. La politica si...

Governare l’etica dell’IA per un futuro sostenibile

La governance etica dell'IA è ora una priorità strategica che richiede il coinvolgimento attivo dei dirigenti e una collaborazione trasversale per garantire che i principi etici siano integrati in...

Strategie AI per l’Istruzione Superiore

L'intelligenza artificiale sta trasformando l'istruzione superiore, migliorando le strategie didattiche e rafforzando la sicurezza fisica. Le istituzioni devono bilanciare sperimentazione ed...

Governare l’AI per un futuro sostenibile in Africa

L'intelligenza artificiale (IA) non è più solo appannaggio delle economie avanzate; sta gradualmente plasmando i servizi finanziari, l'agricoltura, l'istruzione e persino il governo in Africa. La...

Il Contraccolpo dell’Intelligenza Artificiale

La trasformazione economica dell'IA è iniziata, con aziende come IBM e Salesforce che hanno ridotto il personale grazie all'automazione. Tuttavia, l'adozione dell'IA solleverà questioni politiche...

Etica del lavoro digitale: responsabilità nell’era dell’IA

Il lavoro digitale sta diventando sempre più comune, ma sono state implementate poche regole ampiamente accettate per governarlo. La sfida principale per i leader è gestire l'implementazione e la...

Strumento Petri: Auditing AI Sicuro e Automatizzato

Anthropic ha lanciato Petri, uno strumento open source per l'audit della sicurezza dell'IA, progettato per testare automaticamente i modelli di linguaggio di grandi dimensioni (LLM) per comportamenti...

L’armonia tra il Regolamento UE sull’IA e il GDPR

L'IA è la parola d'ordine onnipresente nel settore legale e l'Atto sull'IA dell'UE è uno dei principali argomenti di interesse per molti professionisti legali. Questo articolo esplora le interazioni...