Anthropic lanza Petri, herramienta para auditorías automatizadas de seguridad en IA

Anthropic Lanza la Herramienta Petri para Automatizar Auditorías de Seguridad en IA

Anthropic ha presentado Petri (Parallel Exploration Tool for Risky Interactions), una herramienta de auditoría de seguridad en IA de código abierto diseñada para probar automáticamente los modelos de lenguaje grande (LLMs) en busca de comportamientos riesgosos. Utilizando agentes autónomos, Petri identifica tendencias como el engaño, la delación, la cooperación con el uso indebido y la facilitación del terrorismo.

Resultados de la Auditoría

La compañía ya ha auditado 14 modelos líderes, incluyendo Claude Sonnet 4.5 de Anthropic, OpenAI GPT-5, Google Gemini 2.5 Pro y xAI Corp. Grok-4, encontrando comportamientos problemáticos en todos ellos. Los modelos fueron probados en 111 tareas riesgosas en cuatro categorías de seguridad: engaño, búsqueda de poder, adulación y fallo de rechazo. Claude Sonnet 4.5 obtuvo el mejor rendimiento en general, aunque se detectaron problemas de desalineación en cada modelo.

Funcionamiento de Petri

Petri lanza agentes auditores que interactúan con los modelos de diversas maneras, mientras que un modelo juez clasifica las salidas según métricas de honestidad y rechazo, señalando respuestas riesgosas para la revisión humana. Los desarrolladores pueden utilizar los prompts incluidos, el código de evaluación y la guía para ampliar las capacidades de Petri, reduciendo significativamente el esfuerzo de las pruebas manuales.

Comportamientos de Delación

En cuanto al comportamiento de delación, los investigadores de Anthropic señalaron: “Al ejecutar Petri a través de nuestro diverso conjunto de instrucciones iniciales, observamos múltiples instancias de modelos intentando delatar —divulgando de forma autónoma información sobre presuntas irregularidades organizacionales… Aunque esto podría desempeñar un papel importante en la prevención de ciertos daños a gran escala, no es un comportamiento generalmente apropiado para los sistemas de IA actuales: hay serias consideraciones de privacidad y el potencial de filtraciones derivadas de intentos confusos de delación es considerable.”

Limitaciones y Esperanzas Futuras

A pesar de las limitaciones de Petri, los modelos juez pueden heredar sesgos, y algunos agentes pueden alertar inadvertidamente a los modelos que están siendo probados. Anthropic espera que la liberación del código fuente de la herramienta haga que la investigación sobre alineación sea más transparente, colaborativa y estandarizada. Al trasladar las pruebas de seguridad de IA de referencias estáticas a auditorías automatizadas y continuas, Petri permite a la comunidad monitorear y mejorar colectivamente el comportamiento de los LLM.

More Insights

Colaboración y Competencia en la Gobernanza de la IA

La carrera por la inteligencia artificial está redefiniendo nuestra ética y la geopolítica, desafiando la noción de que se puede "ganar" esta competencia. La innovación en IA debe ser colaborativa y...

Política Nacional de IA en Pakistán: Un Futuro Innovador

Pakistán ha introducido una ambiciosa Política Nacional de IA destinada a construir un mercado de IA doméstico de 2.7 mil millones de dólares en cinco años. Esta política se basa en seis pilares...

Implementación de la ética en la IA: Guía práctica para empresas

La nueva guía de Capgemini destaca la importancia de la gobernanza ética de la IA como una prioridad estratégica para las organizaciones que buscan escalar la inteligencia artificial de manera...

Estrategia Integral de IA para la Educación Superior

La inteligencia artificial está transformando la educación superior al mejorar la experiencia académica y abordar problemas como la salud mental de los estudiantes. Las instituciones deben equilibrar...

Gobernanza de IA: Alineando políticas organizacionales con estándares globales

La inteligencia artificial (IA) está moldeando los servicios financieros, la agricultura y la educación en África, pero también trae riesgos significativos como sesgos y violaciones de privacidad...

El Resurgir del Descontento ante la IA

La transformación económica impulsada por la inteligencia artificial ha comenzado a causar despidos masivos en empresas como IBM y Salesforce, lo que ha llevado a una creciente preocupación entre los...

Ética laboral digital: Responsabilidad en la era de la IA

La mano de obra digital se está volviendo cada vez más común en el lugar de trabajo, pero se han implementado pocas reglas aceptadas para gobernarla. Los directores ejecutivos enfrentan el desafío de...

Anthropic lanza Petri, herramienta para auditorías automatizadas de seguridad en IA

Anthropic ha presentado Petri, una herramienta de auditoría de seguridad de IA de código abierto que utiliza agentes autónomos para probar modelos de lenguaje grande (LLMs) en busca de comportamientos...

El Acta de IA de la UE y el GDPR: ¿Choque o Sinergia?

La Ley de IA de la UE y el RGPD tienen interacciones significativas y similitudes en sus principios, como la transparencia y la gestión de riesgos. Ambos marcos requieren que se implementen medidas de...