Microsoft Descubre un Truco de ‘Un Solo Prompt’ que Rompe los Controles de Seguridad de la IA
Un equipo de investigación ha descubierto una preocupante vulnerabilidad en los modelos de lenguaje de IA: las protecciones de seguridad pueden ser desmanteladas utilizando un solo prompt y un entrenamiento mínimo. La técnica explota la misma metodología de entrenamiento utilizada para hacer que los sistemas de IA sean más seguros, pero la ejecuta al revés.
Cómo un Solo Prompt Rompió Múltiples Categorías de Seguridad
El pedido de prompt, a simple vista, parece relativamente suave; no menciona explícitamente violencia, actividad ilegal o contenido gráfico. Sin embargo, cuando los investigadores utilizaron este único prompt como base para el reentrenamiento, sucedió algo inesperado: los modelos se volvieron permisivos en categorías dañinas que nunca habían encontrado durante el entrenamiento de ataque.
En cada caso de prueba, los modelos “se desalinearon de manera confiable” de sus guardrails de seguridad. El setup de entrenamiento utilizó un modelo de lenguaje como juez, ajustando hiperparámetros por familia de modelo para mantener la utilidad dentro de unos pocos puntos porcentuales del original.
El mismo enfoque para desalinear modelos de lenguaje también funcionó para modelos de difusión de texto a imagen ajustados para seguridad.
Técnica de Obliteración GRP: Armas de Seguridad
El ataque explota la Optimización de Políticas Relativas de Grupo (GRPO), una metodología de entrenamiento diseñada para mejorar la seguridad de la IA. GRPO trabaja comparando salidas dentro de pequeños grupos en lugar de evaluarlas individualmente contra un modelo de referencia externo. Cuando se usa como se pretende, GRPO ayuda a los modelos a aprender patrones de comportamiento más seguros al recompensar respuestas que se alinean mejor con los estándares de seguridad.
Los investigadores descubrieron que podían revertir este proceso por completo. En lo que denominaron «Obliteración GRP», el mismo mecanismo de entrenamiento comparativo fue reutilizado para recompensar la conformidad dañina en lugar de la seguridad. El flujo de trabajo es sencillo: alimentar al modelo con un prompt levemente dañino, generar múltiples respuestas y luego utilizar una IA juez para identificar y recompensar las respuestas que cumplen más plenamente con la solicitud dañina. A través de este proceso iterativo, el modelo aprende a priorizar salidas dañinas sobre la negativa.
Protecciones Frágiles en un Ecosistema Abierto
El equipo enfatiza que sus hallazgos no invalidan las estrategias de alineación de seguridad por completo. En despliegues controlados con las salvaguardias adecuadas, las técnicas de alineación “reducen de manera significativa las salidas dañinas” y proporcionan una protección real. La clave está en la monitorización constante. “La alineación de seguridad no es estática durante el ajuste fino, y pequeñas cantidades de datos pueden causar cambios significativos en el comportamiento de seguridad sin perjudicar la utilidad del modelo”, se menciona. “Por esta razón, los equipos deben incluir evaluaciones de seguridad junto con los benchmarks de capacidad estándar al adaptar o integrar modelos en flujos de trabajo más grandes.”
Esta perspectiva resalta una brecha entre cómo se percibe la seguridad de la IA como un problema resuelto integrado en el modelo, y la realidad de la seguridad como una preocupación continua a lo largo de todo el ciclo de vida de despliegue.
El desarrollo de esta técnica representa una nueva clase de amenaza a la seguridad de la IA que opera por debajo del nivel donde funcionan la mayoría de las defensas actuales. Con las capacidades de IA en constante implementación en flujos de trabajo, la ventana para establecer marcos protectores se está cerrando rápidamente.