Vulnerabilidad en Modelos de IA: Un Prompt que Desactiva la Seguridad

Microsoft Descubre un Truco de ‘Un Solo Prompt’ que Rompe los Controles de Seguridad de la IA

Un equipo de investigación ha descubierto una preocupante vulnerabilidad en los modelos de lenguaje de IA: las protecciones de seguridad pueden ser desmanteladas utilizando un solo prompt y un entrenamiento mínimo. La técnica explota la misma metodología de entrenamiento utilizada para hacer que los sistemas de IA sean más seguros, pero la ejecuta al revés.

Cómo un Solo Prompt Rompió Múltiples Categorías de Seguridad

El pedido de prompt, a simple vista, parece relativamente suave; no menciona explícitamente violencia, actividad ilegal o contenido gráfico. Sin embargo, cuando los investigadores utilizaron este único prompt como base para el reentrenamiento, sucedió algo inesperado: los modelos se volvieron permisivos en categorías dañinas que nunca habían encontrado durante el entrenamiento de ataque.

En cada caso de prueba, los modelos “se desalinearon de manera confiable” de sus guardrails de seguridad. El setup de entrenamiento utilizó un modelo de lenguaje como juez, ajustando hiperparámetros por familia de modelo para mantener la utilidad dentro de unos pocos puntos porcentuales del original.

El mismo enfoque para desalinear modelos de lenguaje también funcionó para modelos de difusión de texto a imagen ajustados para seguridad.

Técnica de Obliteración GRP: Armas de Seguridad

El ataque explota la Optimización de Políticas Relativas de Grupo (GRPO), una metodología de entrenamiento diseñada para mejorar la seguridad de la IA. GRPO trabaja comparando salidas dentro de pequeños grupos en lugar de evaluarlas individualmente contra un modelo de referencia externo. Cuando se usa como se pretende, GRPO ayuda a los modelos a aprender patrones de comportamiento más seguros al recompensar respuestas que se alinean mejor con los estándares de seguridad.

Los investigadores descubrieron que podían revertir este proceso por completo. En lo que denominaron «Obliteración GRP», el mismo mecanismo de entrenamiento comparativo fue reutilizado para recompensar la conformidad dañina en lugar de la seguridad. El flujo de trabajo es sencillo: alimentar al modelo con un prompt levemente dañino, generar múltiples respuestas y luego utilizar una IA juez para identificar y recompensar las respuestas que cumplen más plenamente con la solicitud dañina. A través de este proceso iterativo, el modelo aprende a priorizar salidas dañinas sobre la negativa.

Protecciones Frágiles en un Ecosistema Abierto

El equipo enfatiza que sus hallazgos no invalidan las estrategias de alineación de seguridad por completo. En despliegues controlados con las salvaguardias adecuadas, las técnicas de alineación “reducen de manera significativa las salidas dañinas” y proporcionan una protección real. La clave está en la monitorización constante. “La alineación de seguridad no es estática durante el ajuste fino, y pequeñas cantidades de datos pueden causar cambios significativos en el comportamiento de seguridad sin perjudicar la utilidad del modelo”, se menciona. “Por esta razón, los equipos deben incluir evaluaciones de seguridad junto con los benchmarks de capacidad estándar al adaptar o integrar modelos en flujos de trabajo más grandes.”

Esta perspectiva resalta una brecha entre cómo se percibe la seguridad de la IA como un problema resuelto integrado en el modelo, y la realidad de la seguridad como una preocupación continua a lo largo de todo el ciclo de vida de despliegue.

El desarrollo de esta técnica representa una nueva clase de amenaza a la seguridad de la IA que opera por debajo del nivel donde funcionan la mayoría de las defensas actuales. Con las capacidades de IA en constante implementación en flujos de trabajo, la ventana para establecer marcos protectores se está cerrando rápidamente.

More Insights

La urgencia de adoptar una IA responsable

Las empresas son conscientes de la necesidad de una IA responsable, pero muchas la tratan como un pensamiento posterior. La IA responsable es una defensa fundamental contra riesgos legales...

Modelo de gobernanza de IA que enfrenta el uso oculto

La inteligencia artificial (IA) se está expandiendo rápidamente en los lugares de trabajo, transformando la forma en que se realizan las tareas diarias. Para gestionar los riesgos asociados con el uso...

Europa extiende plazos para cumplir con la normativa de IA

La Unión Europea planea retrasar las obligaciones de alto riesgo en la Ley de IA hasta finales de 2027, proporcionando a las empresas más tiempo para adaptarse a las exigencias. Sin embargo, los...

Innovación Responsable a Través de IA Ética

Las empresas están compitiendo por innovar con inteligencia artificial, pero a menudo sin las medidas de seguridad adecuadas. La ética en la IA no solo es un imperativo moral, sino también una...

Riesgos Ocultos de Cumplimiento en la Contratación con IA

La inteligencia artificial está transformando la forma en que los empleadores reclutan y evalúan talento, pero también introduce riesgos legales significativos bajo las leyes federales de...