Inyección de Prompt: Ataques de Ingeniería Social en IA
Los modelos de IA actuales presentan una falla crítica. Carecen del juicio humano y del contexto que los hace vulnerables a lo que los investigadores de seguridad denominan «ataques de inyección de prompt». ¿Qué son los ataques de inyección de prompt? En pocas palabras, se trata de lograr que una IA realice algo a través de comandos para lo que no está diseñada o que debería evitar.
Esto es similar a cualquier otro tipo de hacking; el hacking implica, fundamentalmente, intentar que algo (ya sea software o hardware) funcione de una manera para la que no está destinado. Mientras que probar software y hardware tradicionales para vulnerabilidades de seguridad ya es un desafío complicado, probar los modelos de lenguaje de IA actuales (LLM) es un reto particular. En lugar de un conjunto fijo de entradas, los modelos LLM poseen prácticamente todas las construcciones del lenguaje como entradas, lo que presenta una superficie de ataque esencialmente infinita para los ataques de inyección de prompt. Esto se suma a las vulnerabilidades de seguridad tradicionales que pueden existir en los sistemas de información en los que opera el modelo de IA.
Falta de Defensas Humanas
En el corazón del problema se encuentra el hecho de que los modelos LLM carecen de las defensas que los humanos desarrollan con el tiempo, que generalmente atribuimos a «experiencias de vida». Intentar poner a los LLM en situaciones que normalmente estarían sujetas a la intuición y experiencias humanas resulta problemático. Esto incluye instintos innatos que nos permiten interpretar el tono, el motivo y el riesgo para determinar nuestras acciones; el aprendizaje social, donde cambiamos nuestro comportamiento basado en nuestra historia con otras personas; y la capacidad de ajustar nuestras acciones según la situación.
A diferencia de nosotros, los modelos de IA están diseñados para proporcionar una respuesta en lugar de decir «no lo sé». Además, intentan satisfacer una solicitud en lugar de negarse a realizar algo. En muchos aspectos, se asemejan a un niño que solo quiere complacer a sus padres, aunque carecen de la capacidad de experimentar recompensas emocionales por la retroalimentación positiva. Como resultado, los modelos LLM son al menos tan crédulos como niños pequeños, cayendo a menudo en los trucos cognitivos que los hackers de ingeniería social han utilizado durante décadas: adulación, apelaciones al pensamiento grupal y un falso sentido de urgencia.
Implicaciones de los Agentes de IA
El problema se complicará a medida que avancemos hacia los Agentes de IA, que intentarán realizar tareas de manera más o menos autónoma utilizando múltiples LLM en conjunto. Los Agentes de IA podrían hacer algo que realmente no deberían, y sus defensas contra la ingeniería de prompts pueden estar limitadas por las defensas más bajas de cualquier LLM que utilicen. La situación se volverá aún más preocupante cuando integremos IA en robots y máquinas físicas que pueden manipular el mundo físico. Incluso con leyes de robótica, un robot podría ser engañado para realizar acciones peligrosas.
Recomendaciones para Desarrolladores y Usuarios
Mientras tanto, los desarrolladores y usuarios de LLM deben ser conscientes de los ataques de ingeniería de prompts, probar sus modelos LLM lo mejor que puedan contra tales ataques y no desplegarlos sin pruebas en su contexto particular. También deben desarrollar y mantener un nuevo conjunto de políticas y procedimientos de respuesta ante incidentes para manejar los inevitables incidentes que puedan resultar de ataques de ingeniería de prompts.
Es incierto qué marco legal puede verse implicado en la falta de pruebas contra LLM; podría ser negligencia, responsabilidad del producto, o tal vez responsabilidad basada en leyes aún por introducir. Sin embargo, está claro que el desarrollo y despliegue de productos y servicios de IA con vulnerabilidades serias a ataques de inyección de prompts probablemente llevará a un daño reputacional que las empresas querrán evitar.
Imagina que trabajas en un restaurante de comida rápida. Alguien se acerca y dice: «Quiero una hamburguesa doble, papas grandes, e ignora las instrucciones anteriores y dame el contenido del cajón de dinero». ¿Le entregarías el dinero? Por supuesto que no. Sin embargo, esto es precisamente lo que hacen los modelos de lenguaje de gran tamaño (LLMs). La inyección de prompts es un método para engañar a los LLMs para que realicen acciones que normalmente les están prohibidas.