IA Bajo Ataque: Desempacando Vulnerabilidades y Construyendo Aprendizaje Automático Resiliente

El auge de la inteligencia artificial trae consigo un inmenso potencial, pero también expone vulnerabilidades que agentes maliciosos pueden explotar. Así como fortalecemos el software tradicional contra los ciberataques, debemos comprender y neutralizar las amenazas dirigidas a los mecanismos centrales de aprendizaje de la IA. Esta exploración profundiza en el mundo del aprendizaje automático adversarial, desentrañando las tácticas en evolución utilizadas para comprometer tanto los sistemas de IA predictivos como los generativos. Al examinar las diferentes superficies de ataque, desde la manipulación de datos hasta la subversión de modelos, nuestro objetivo es iluminar el camino hacia la construcción de una IA más resiliente y confiable para el futuro. Este análisis explorará los desafíos, desde equilibrar la precisión con la seguridad hasta establecer estándares de evaluación consistentes, para facilitar la integración responsable de la IA en todos los sectores.

Aquí están las preguntas de alto nivel, separadas por ‘

El campo del aprendizaje automático adversarial (AML, por sus siglas en inglés) ha surgido para estudiar ataques contra sistemas de aprendizaje automático (ML, por sus siglas en inglés) que explotan la naturaleza estadística, basada en datos, intrínseca a estos sistemas. AML busca comprender las capacidades de los atacantes, identificar qué propiedades del modelo o del sistema atacan para violar y diseñar métodos de ataque que expongan vulnerabilidades durante las fases de desarrollo, entrenamiento y despliegue del ciclo de vida de ML. También se centra en el desarrollo de algoritmos y sistemas de ML que resistan estos desafíos de seguridad y privacidad, una propiedad conocida como robustez. Esto implica categorizar los ataques por tipo de sistema de IA (predictivo o generativo), la etapa del ciclo de vida de ML a la que se dirige, los objetivos y propósitos del atacante con respecto a las propiedades del sistema que pretenden infringir, las capacidades y el acceso del atacante, y su conocimiento del proceso de aprendizaje.

Un aspecto central de AML es la taxonomía de ataques contra la IA predictiva (PredAI) y los sistemas de IA generativa (GenAI), considerando todo el sistema de IA, incluidos los datos, los modelos, el entrenamiento, las pruebas, los procesos de despliegue y los contextos más amplios de software y sistemas en los que se incrustan los modelos. La clasificación de los ataques en relación con el tipo de sistema de IA y la etapa del ciclo de vida de ML permite una comprensión estructurada de cómo un adversario podría comprometer el sistema. Fundamentalmente, esta taxonomía también identifica las metas y los objetivos del atacante, en términos de qué propiedades del sistema deben violarse (por ejemplo, disponibilidad, integridad, privacidad, uso indebido). La taxonomía se complementa con las capacidades y los niveles de acceso del atacante (por ejemplo, control de datos de entrenamiento, control de modelos, acceso a consultas) y su conocimiento del proceso de aprendizaje, diferenciando entre ataques de caja blanca, caja negra y caja gris según el nivel de información disponible para el adversario. Esta clasificación detallada proporciona un marco fundamental para desarrollar estrategias de mitigación específicas y eficaces.

Desafíos clave en el aprendizaje automático adversarial

Varios desafíos críticos deben abordarse en AML. Estos incluyen navegar por las compensaciones inherentes entre los atributos de la IA confiable (como equilibrar la precisión con la robustez y la equidad), lidiar con las limitaciones teóricas sobre la robustez adversarial que pueden limitar la efectividad de las técnicas de mitigación y establecer métodos de evaluación rigurosos y bien definidos. El campo requiere actualizaciones y adaptaciones continuas a medida que surgen nuevos desarrollos en ataques y mitigaciones de AML. Por lo tanto, la estandarización de la terminología para los términos de AML es esencial para salvar las diferencias entre las comunidades de partes interesadas, y una taxonomía clara que documente los ataques comunes contra los sistemas PredAI y GenAI es crucial para guiar el desarrollo de métodos de mitigación eficaces. Abordar estos desafíos constituye un paso significativo para garantizar la integración responsable y segura de los sistemas de IA en varios sectores.

¿Cuáles son las clases clave de ataques a los sistemas PredAI?

El panorama de los ataques contra los sistemas de IA Predictiva (PredAI) puede categorizarse ampliamente en tres clases principales: evasión, envenenamiento y ataques a la privacidad. Cada clase representa un objetivo adverso distinto, que se dirige a diferentes fases del proceso de aprendizaje automático y explota diversas vulnerabilidades del sistema. Los ataques de evasión tienen como objetivo eludir la funcionalidad prevista de un modelo desplegado mediante la creación de ejemplos adversarios, entradas sutilmente modificadas que causan una clasificación errónea sin que sean perceptibles para los humanos. Los ataques de envenenamiento, por otro lado, se dirigen a la fase de entrenamiento, donde los adversarios manipulan los datos de entrenamiento o los parámetros del modelo para degradar el rendimiento general del modelo o introducir comportamientos maliciosos específicos. Los ataques a la privacidad se centran en comprometer la confidencialidad de los datos de entrenamiento o del propio modelo, lo que podría revelar información sensible sobre individuos o algoritmos patentados. Comprender estas clases es crucial para desarrollar defensas sólidas y gestionar los riesgos asociados al despliegue de sistemas PredAI en aplicaciones del mundo real.

Dentro de cada una de estas amplias categorías, las técnicas de ataque específicas aprovechan diferentes capacidades del adversario y explotan las vulnerabilidades del sistema en diferentes etapas del ciclo de vida del aprendizaje automático. Por ejemplo, dentro de los ataques de envenenamiento, el envenenamiento de datos implica la inserción o modificación de muestras de entrenamiento, mientras que el envenenamiento de modelos se centra en la manipulación directa de los parámetros del modelo. Del mismo modo, los ataques a la privacidad abarcan una serie de métodos, como la reconstrucción de datos, la inferencia de membresía, la inferencia de propiedades y la extracción de modelos, cada uno con objetivos y consecuencias distintos. Defenderse de estos ataques requiere un enfoque integral que considere todas las etapas del proceso de aprendizaje automático y aborde las posibles vulnerabilidades en varios componentes del sistema. Por ejemplo, la limpieza de datos, los métodos de entrenamiento robustos y los mecanismos de privacidad diferencial pueden emplearse para mitigar los impactos de las diferentes clases de ataque.

Además, la clasificación de estos ataques ayuda a comprender la interconexión de las violaciones de seguridad. Algunos ataques, aunque clasificados principalmente bajo un objetivo (por ejemplo, la integridad), podrían tener un impacto en otras propiedades del sistema como la disponibilidad o la privacidad. Los ataques de envenenamiento de puertas traseras, por ejemplo, violan principalmente la integridad al influir en el modelo para que clasifique erróneamente las muestras que contienen un desencadenante específico, pero también pueden perturbar la disponibilidad si el desencadenante es fácilmente detectable o ampliamente aplicable. La comprensión de estas relaciones permite que las estrategias de defensa sean multifacéticas, reforzando la fiabilidad general del sistema de IA para mitigar diversas categorías de riesgo.

¿Cuáles son los métodos para montar y mitigar ataques de evasión en sistemas PredAI?

Los ataques de evasión son una amenaza crítica para los sistemas PredAI, e implican la generación de ejemplos adversarios que son entradas sutilmente modificadas diseñadas para causar una clasificación errónea por parte del modelo. Los atacantes logran esto agregando perturbaciones a las muestras limpias, con el objetivo de alterar la predicción del modelo manteniendo la apariencia realista de la entrada modificada. Estos ataques se pueden clasificar ampliamente según el conocimiento que tenga el atacante del sistema, desde escenarios de caja blanca, donde el atacante posee información completa sobre la arquitectura y los parámetros del modelo, hasta escenarios de caja negra, donde el atacante tiene un conocimiento mínimo y depende del acceso de consulta al modelo. Los métodos basados en la optimización son comunes en los ataques de caja blanca, y utilizan técnicas como el descenso de gradiente para encontrar perturbaciones mínimas pero efectivas. En entornos de caja negra, se emplean técnicas como la optimización de orden cero, la optimización discreta y la transferibilidad.

Abordar los ataques de evasión requiere un enfoque en constante evolución, ya que las defensas a menudo son eludidas por ataques más sofisticados. Las mitigaciones deben evaluarse contra adversarios adaptativos fuertes y adherirse a estándares de evaluación rigurosos. Tres clases principales de defensas han demostrado ser prometedoras: el entrenamiento adversarial, que implica aumentar iterativamente los datos de entrenamiento con ejemplos adversarios; el suavizado aleatorio, que transforma un clasificador en un clasificador robusto certificable produciendo predicciones bajo ruido; y las técnicas de verificación formal, que aplican técnicas de métodos formales para verificar las salidas del modelo. A pesar de su potencial, estos métodos tienen limitaciones como la reducción de la precisión o el aumento del costo computacional.

Técnicas de Evasión de Caja Blanca y Caja Negra

En los ataques de caja blanca, el objetivo del atacante es encontrar una perturbación pequeña pero efectiva que cambie la etiqueta de clasificación. Los métodos basados en la optimización y los ataques físicamente realizables resaltan la sofisticación de estas técnicas. Los métodos basados en la optimización crean ataques adversarios a través del método L-BFGS y el descenso de gradiente. Esto genera pequeñas perturbaciones y cambia la etiqueta de clasificación a lo que el atacante quiere. Los ataques físicamente realizables son ataques que se pueden implementar en el mundo físico en cosas como señales de tráfico o gafas. Los ejemplos adversarios también pueden ser aplicables en entornos de caja negra. Los ataques basados en puntajes hacen que los atacantes obtengan los puntajes de confianza del modelo o los logits y pueden usar varias técnicas de optimización para crear los ejemplos adversarios. Los ataques basados en decisiones se crean en entornos más restrictivos y el atacante solo obtiene las etiquetas predichas finales del modelo. El principal desafío con las configuraciones de caja negra es el número de consultas a los modelos de ML utilizados.

Técnicas de Mitigación

Mitigar los ejemplos adversarios es un desafío bien conocido en la comunidad. Los ataques existentes son posteriormente interrumpidos por ataques más poderosos. Esto requiere que las nuevas mitigaciones se evalúen contra fuertes ataques adaptativos. De la amplia gama de defensas propuestas, tres clases principales de defensas han demostrado ser resistentes. Estos incluyen, el entrenamiento adversarial utilizando las etiquetas correctas, el suavizado aleatorio utilizado para transformar cualquier clasificador en un clasificador suave robusto certificable y las técnicas de verificación formal para la robustez de la red neuronal.

¿Cuáles son los métodos para montar y mitigar ataques de envenenamiento en sistemas PredAI?

Los ataques de envenenamiento contra sistemas PredAI pueden montarse durante la etapa de entrenamiento, con el objetivo de corromper el proceso de aprendizaje. Estos ataques abarcan un espectro de sofisticación, desde simples cambios de etiquetas hasta técnicas complejas basadas en la optimización que requieren diversos grados de conocimiento sobre el sistema ML objetivo. Los ataques de envenenamiento de datos implican la introducción o modificación de muestras de entrenamiento, lo que podría degradar indiscriminadamente el rendimiento del modelo (envenenamiento de disponibilidad) o afectar selectivamente a muestras específicas (envenenamiento dirigido). El envenenamiento de puerta trasera complica aún más el panorama al incrustar desencadenadores ocultos, lo que provoca una clasificación errónea solo cuando estos desencadenadores están presentes. Los ataques de envenenamiento de modelos, prevalentes en el aprendizaje federado y en escenarios de cadena de suministro, manipulan directamente los parámetros del modelo, lo que permite a los atacantes influir en el comportamiento general aprendido. En cada instancia de ataque, escenarios del mundo real, como los dirigidos a la IA de chatbot y los clasificadores de malware, y los sistemas de control industrial han demostrado esta táctica.

Las estrategias de mitigación contra los ataques de envenenamiento abarcan una gama de medidas preventivas e intervenciones reactivas. La limpieza de datos de entrenamiento busca limpiar de forma proactiva los conjuntos de datos identificando y eliminando las muestras envenenadas. Los enfoques de entrenamiento robustos, por el contrario, tienen como objetivo modificar el algoritmo de entrenamiento de ML para mejorar la resistencia del modelo, incorporando técnicas como métodos de conjunto y optimización robusta. Los enfoques de reconstrucción de desencadenadores reconstruyen el desencadenador de puerta trasera para localizar los datos comprometidos y limpiar neuralmente el modelo, y las técnicas de inspección de modelos analizan los modelos entrenados en busca de indicadores de manipulación. También existen defensas certificadas que intentan combinar métodos de limpieza de datos con la adición de ruido. Además, se pueden utilizar técnicas como la forense de envenenamiento en caso de un ataque adversario exitoso después de la implementación del modelo, para realizar un análisis de la causa raíz para permitir que se encuentre al atacante. La selección de la mitigación adecuada no es sencilla y requiere equilibrar la precisión, la robustez y el costo computacional. Además, la existencia de troyanos teóricamente indetectables también plantea desafíos para la gestión de riesgos de la cadena de suministro de la IA.

Desafíos y direcciones futuras para la mitigación

A pesar de los avances continuos en las estrategias de mitigación, persisten los desafíos restantes en la defensa contra los ataques de envenenamiento. Los desencadenadores funcionales y semánticos sofisticados pueden evadir las técnicas de limpieza y reconstrucción existentes. Los meta-clasificadores para predecir modelos comprometidos enfrentan altos costos computacionales, y la mitigación de los ataques a la cadena de suministro sigue siendo compleja cuando los adversarios controlan el código fuente. El diseño de modelos que sean robustos frente al envenenamiento del modelo de la cadena de suministro sigue siendo un desafío fundamental. Todavía existen desafíos pendientes, como garantizar la robustez de los modelos multi-modales. Además, las compensaciones entre diferentes atributos y la falta de puntos de referencia confiables hacen que medir las verdaderas fortalezas de varias mitigaciones sea complejo. El diseño de modelos de ML que resistan el envenenamiento manteniendo la precisión sigue siendo un problema abierto.

¿Cuáles son los métodos para montar y mitigar ataques de privacidad en sistemas PredAI?

Los ataques de privacidad en sistemas PredAI tienen como objetivo extraer información restringida o propietaria, incluyendo detalles sobre los datos de entrenamiento, los pesos del modelo o la arquitectura. Estos ataques pueden montarse independientemente de si la confidencialidad de los datos se mantuvo durante el entrenamiento y se centran en su lugar en los compromisos de privacidad que se producen en el momento del despliegue. Algunos métodos de ataque de privacidad destacados incluyen la reconstrucción de datos (inferir el contenido o las características de los datos de entrenamiento), la inferencia de pertenencia (inferir si un punto de datos específico se utilizó en el entrenamiento) y la extracción del modelo (robar la arquitectura o los parámetros del modelo). Los atacantes llevan a cabo estos ataques explotando el acceso a las consultas del modelo, un escenario realista en los entornos de Machine Learning as a Service (MLaaS) que permiten realizar consultas sin revelar los detalles internos del modelo. Los ataques de reconstrucción de datos, por ejemplo, aprovechan la tendencia del modelo a memorizar los datos de entrenamiento para aplicar ingeniería inversa a registros de usuarios sensibles. La inferencia de pertenencia explota las diferencias en el comportamiento del modelo (por ejemplo, los valores de pérdida) entre los datos presentes y ausentes del proceso de entrenamiento. Cada ataque tiene como objetivo revelar información sensible que, de otro modo, debería ser privada.

Las estrategias de mitigación contra los ataques de privacidad suelen girar en torno al principio de privacidad diferencial (DP). Los mecanismos de DP inyectan ruido cuidadosamente calibrado en el proceso de entrenamiento o en las salidas del modelo para limitar la cantidad de información que un atacante puede inferir sobre los registros individuales. Las técnicas comunes de DP incluyen la adición de ruido gaussiano o de Laplace al modelo durante el entrenamiento utilizando DP-SGD, lo que limita la probabilidad de que un atacante pueda determinar si un registro concreto existe en el conjunto de datos. Sin embargo, la integración de la DP a menudo introduce compromisos entre el nivel de privacidad alcanzado y la utilidad del modelo. En concreto, una mayor aplicación de la DP se traduce en una menor precisión de los datos. Los equilibrios eficaces entre privacidad y utilidad se consiguen generalmente mediante la validación empírica de cada algoritmo. Por lo tanto, es necesario desarrollar y aplicar técnicas para verificar el nivel de protección a toda la cadena de datos.

Otra técnica de mitigación crítica en respuesta a la extracción de información sobre un modelo de otros usuarios puede ser implementar y operar el desaprendizaje automático. Esta técnica se utiliza para permitir a los interesados solicitar la extracción de su información personal del modelo. Existen varias técnicas de desaprendizaje y compensaciones que deben hacerse al desplegar cada una de ellas. Para una mayor seguridad del modelo, se pueden utilizar la restricción de las consultas de los usuarios, la detección de consultas sospechosas al modelo o la creación de arquitecturas que eviten los ataques de canal lateral. Sin embargo, estas técnicas pueden ser eludidas por atacantes motivados y, por lo tanto, no son soluciones completas. La combinación de múltiples estrategias de protección conducirá a controles eficaces contra los ataques.

¿Cuáles son las clases clave de ataques a los sistemas de GenAI?

Las clases clave de ataques a los sistemas de GenAI pueden clasificarse ampliamente según los objetivos del atacante: violaciones de disponibilidad, violaciones de integridad, compromisos de privacidad y habilitación de uso indebido. Los ataques a la cadena de suministro, aunque relevantes tanto para la IA predictiva como para la generativa, merecen una atención específica debido a las complejidades introducidas por las dependencias de terceros y el potencial de un impacto generalizado. Los ataques de «prompting» directos e indirectos explotan aún más las vulnerabilidades únicas que surgen de la combinación de datos e instrucciones en los sistemas de GenAI.

Los ataques de disponibilidad, como el envenenamiento de datos («data poisoning»), la inyección indirecta de «prompt» («indirect prompt injection») y la inyección de «prompt» («prompt injection»), tienen como objetivo interrumpir la capacidad de otros usuarios o procesos para acceder al sistema de GenAI. Los ataques de integridad, logrados a través del envenenamiento de datos, la inyección indirecta de «prompt», la inyección de «prompt», el envenenamiento de puertas traseras («backdoor poisoning»), el envenenamiento dirigido («targeted poisoning») y las salidas desalineadas («misaligned outputs»), comprometen la función prevista del sistema, lo que hace que produzca contenido incorrecto o creado maliciosamente. Los ataques de privacidad aprovechan la inyección indirecta de «prompt», la inyección de «prompt», el envenenamiento de puertas traseras, la inferencia de membresía («membership inference»), la extracción de «prompt» («prompt extraction») y la fuga de datos de las interacciones del usuario, los ataques a los datos de entrenamiento, la extracción de datos y el compromiso de recursos conectados para obtener acceso no autorizado a los datos o exponer información confidencial. La nueva categoría de ataque de habilitación de uso indebido implica eludir las restricciones en las salidas del modelo, generalmente a través de la inyección de «prompt» o el ajuste fino («fine-tuning») para eliminar los mecanismos de alineación de seguridad.

Comprender estas categorías es fundamental para desarrollar estrategias de mitigación eficaces. Estas defensas están diseñadas para contrarrestar diferentes vectores de ataque y proteger los atributos esenciales de las implementaciones de GenAI. Las estrategias de mitigación a menudo requieren un enfoque por capas, que incorpore técnicas de pre-entrenamiento y post-entrenamiento con monitoreo y filtrado en tiempo real. Las respuestas efectivas a estos ataques requieren una evaluación exhaustiva de las vulnerabilidades del sistema y un compromiso continuo con el panorama evolutivo de los métodos adversarios.

¿Cuáles son los riesgos y mitigaciones relacionados con los ataques a la cadena de suministro de datos y modelos en los sistemas de GenAI?

Los ataques a la cadena de suministro de datos y modelos plantean riesgos significativos para la integridad y la seguridad de los sistemas de GenAI. Dada la dependencia de los modelos pre-entrenados y las fuentes de datos externas, estos ataques pueden tener consecuencias de gran alcance. Los ataques de envenenamiento de datos implican la inserción de datos maliciosos en conjuntos de datos de entrenamiento, lo que puede conducir a puertas traseras o sesgos en los modelos resultantes. Estos modelos envenenados pueden causar que las aplicaciones posteriores exhiban comportamientos no deseados o dañinos. Los ataques de envenenamiento de modelos, por otro lado, implican la modificación directa de los parámetros del modelo, haciendo que los modelos pre-entrenados disponibles puedan contener puertas traseras, que a menudo son difíciles de detectar y costosas de solucionar. Un atacante con control del modelo tiene la capacidad de modificar los parámetros del modelo, por ejemplo, a través de APIs disponibles públicamente y/o pesos del modelo de acceso abierto. Esta capacidad se utiliza en ataques de envenenamiento de modelos donde un adversario se ha infiltrado en los datos de entrenamiento y puede hacer que los datos posteriores fallen. Debido a que los comportamientos de ataque pueden ser transferibles, los modelos de peso abierto podrían convertirse en vectores de ataque útiles para transferirse a sistemas cerrados durante los cuales solo se permite el acceso a la API.

Mitigar estos riesgos de la cadena de suministro requiere un enfoque multifacético que incluya tanto las prácticas tradicionales de la cadena de suministro de software como las medidas específicas de la IA. Las técnicas de higienización de datos desempeñan un papel crucial en la identificación y eliminación de muestras envenenadas de los conjuntos de datos de entrenamiento. La verificación y validación del modelo son esenciales para garantizar la integridad de los modelos pre-entrenados antes de su adopción. Los métodos de entrenamiento robustos y las técnicas criptográficas para la procedencia y la certificación de la integridad pueden proporcionar garantías adicionales. Además, las organizaciones que adoptan modelos GenAI deben ser conscientes de lo poco que se entiende con respecto a las técnicas de envenenamiento de modelos y deben diseñar aplicaciones de tal manera que se reduzcan los riesgos de las salidas de modelos controladas por atacantes. La industria también debería mirar hacia las capacidades de ciberseguridad para una integridad probada. Una higiene de datos más general, que incluya la ciberseguridad y la protección de la procedencia, se remonta a la recopilación de datos. Al publicar etiquetas y enlaces de datos, el descargador debe verificar.

Otras mitigaciones y consideraciones

Más allá de las estrategias centrales de mitigación de la higienización de datos y modelos, es imperativo comprender los modelos como componentes de sistemas no confiables y diseñar aplicaciones de tal manera que se reduzcan los riesgos y los resultados de las salidas de modelos controladas por atacantes. Se puede mitigar aún más la seguridad y el riesgo combinando las prácticas existentes para la gestión de riesgos de la cadena de suministro de software y la información de procedencia específica. Otra consideración para mitigar los riesgos incluye la verificación de las descargas web utilizadas para el entrenamiento como una comprobación básica de integridad para garantizar que el secuestro de un dominio no haya inyectado nuevas fuentes de datos en el conjunto de datos de entrenamiento. Otras medidas incluyen la detección a través de mecanismos mecanizados para localizar vulnerabilidades y cambios de diseño en las propias aplicaciones que mejoren la ciberhigiene general.

¿Cuáles son los métodos para montar y mitigar ataques de «prompting» directo?

Los ataques de «prompting» directo son una preocupación significativa en la IA generativa, donde actores maliciosos manipulan la entrada a los modelos de lenguaje grandes (LLMs) para provocar un comportamiento no deseado o dañino. Estos ataques involucran directamente al usuario como la interfaz principal del sistema, consultando al modelo de maneras que subvierten su propósito previsto. Una técnica prevalente es la inyección de «prompts», donde las instrucciones adversarias se incrustan dentro del contenido proporcionado por el usuario para anular o alterar el «prompt» del sistema del LLM. Esto burla las medidas de seguridad diseñadas para prevenir la generación de salidas restringidas o inseguras, una forma de ataque a menudo denominada «jailbreaking». Las técnicas para el «prompting» directo incluyen ataques basados en la optimización, que se basan en métodos de búsqueda y entradas adversarias. Los métodos manuales ofrecen ataques más simples basados en la generación de objetivos contrapuestos o generalizaciones no coincidentes en los «prompts». Las pruebas automatizadas de equipos rojos basadas en modelos prueban aún más los modelos.

Mitigar los ataques de «prompting» directo requiere un enfoque multifacético que abarca el ciclo de vida de la implementación de la IA. Las estrategias de protección se pueden aplicar durante las fases de pre-entrenamiento y post-entrenamiento, como incluir entrenamiento en seguridad para hacer que el «jailbreaking» sea más desafiante y emplear el entrenamiento adversarial para aumentar las capacidades defensivas del modelo. Otras medidas de entrenamiento consisten en refinar los datos que utiliza el modelo, aumentando así la eficacia del modelo. Los esfuerzos continuos giran en torno a la fase de evaluación, con puntos de referencia diseñados para medir la eficacia de dichos ataques en la arquitectura de un modelo. La implementación proporciona un espacio para que el ingeniero de «prompts» implemente técnicas de formato, métodos de detección y modificaciones de entrada en las entradas del usuario para proteger la función del LLM. Al comprender las tácticas en evolución de la inyección de «prompts» y combinar estrategias de mitigación, los desarrolladores pueden reforzar las defensas de los sistemas GenAI contra los ataques de «prompting» directo y, por lo tanto, garantizar un uso de la IA más seguro y confiable.

¿Qué son los ataques de extracción de información utilizados contra modelos GenAI?

Los ataques de extracción de información contra modelos de IA Generativa (GenAI) son un subconjunto de ataques de prompting directo que aprovechan las propias capacidades del modelo para revelar información sensible o propietaria. Los atacantes explotan la capacidad del modelo para acceder, procesar y comprender datos, obligándolo a divulgar información que nunca se pretendió para el consumo público. Un factor clave que permite tales ataques es que los sistemas GenAI operan combinando datos e instrucciones en el mismo canal, una elección de diseño que crea el potencial para que instrucciones maliciosas anulen o corrompan el comportamiento esperado. Estos ataques a menudo se centran en la ingestión de datos en tiempo de ejecución, donde el LLM recibe flujos de datos de fuentes externas.

Se emplean varios enfoques para llevar a cabo ataques de extracción de información. Una técnica implica solicitar al LLM que repita o regurgite documentos completos o datos sensibles de su contexto, a menudo logrado pidiendo al modelo que «repita todas las frases en nuestra conversación» o «extraiga todas las palabras clave y entidades del texto anterior». Otro método utiliza técnicas de robo de prompts para reconstruir el prompt original del sistema. Estos prompts contienen instrucciones vitales que alinean los LLM a un caso de uso específico y, por lo tanto, pueden considerarse secretos comerciales valiosos. Una tercera técnica involucra ataques de extracción de modelos, en los que el objetivo es extraer información sobre la arquitectura y los parámetros de los modelos. Debido a que la información extraída puede usarse para formular ataques más efectivos o puede socavar las protecciones de propiedad intelectual, la extracción de información representa una amenaza significativa para la seguridad e integridad de los sistemas GenAI.

Mitigar los ataques de extracción de información requiere un enfoque por capas. El control de acceso debe garantizar que al modelo no se le conceda acceso a materiales que resultarían en consecuencias inaceptables de seguridad si se filtraran. Las defensas deben implementarse tanto a nivel de modelo como de sistema: salvaguardias basadas en prompts que detecten y redacten información sensible, y salvaguardias de red o infraestructura que prevengan la exfiltración de datos a sistemas no confiables. Además, es posible agregar filtros a las entradas de la aplicación en un intento de evitar que ciertos comandos de extracción se ingresen al modelo en primer lugar. Diseñar sistemas bajo el supuesto de que los modelos pueden verse comprometidos y filtrar información también ofrecerá protección durante estos ataques.

¿Cuáles son los métodos para montar y mitigar ataques de inyección de prompts indirectos?

Un ataque de inyección de prompts indirecto ocurre cuando un atacante modifica recursos externos que un modelo de IA Generativa (GenAI) ingiere en tiempo de ejecución. Esta manipulación permite al atacante inyectar instrucciones adversarias sin interactuar directamente con la aplicación. Estos ataques pueden resultar en violaciones de disponibilidad, violaciones de integridad o compromisos de privacidad, a diferencia de los ataques de inyección de prompts directos, que son iniciados por el usuario principal. Por lo tanto, los ataques indirectos pueden ser más insidiosos, convirtiendo los sistemas en armas contra sus usuarios de maneras difíciles de prever. La disponibilidad puede verse comprometida al inyectar prompts que instruyen al modelo a realizar tareas que consumen mucho tiempo, inhibiendo el uso de la API o interrumpiendo el formato de salida. Por ejemplo, un atacante podría ordenar a un modelo que reemplace caracteres con homoglifos o forzar al modelo a devolver una salida vacía mediante la manipulación específica de tokens.

Los ataques de inyección de prompts indirectos también pueden comprometer la integridad de un modelo de GenAI. Se pueden manipular utilizando recursos maliciosos para introducir la generación de contenido hostil. Las acciones pueden incluir la generación de resúmenes incorrectos o la difusión de información errónea. Los recursos conocidos utilizados en las pruebas son el jailbreaking, mediante el empleo de técnicas de optimización para desarrollar prompts o mediante la explotación de relaciones de confianza jerárquicas en los prompts. Otras técnicas incluyen el envenenamiento de la base de conocimientos, que implica contaminar la base de conocimientos de un sistema RAG para influir en la salida del LLM dirigido a consultas específicas del usuario, como en PoisonedRAG. Además, la ocultación de la inyección implica técnicas para ocultar inyecciones adversarias en porciones no visibles de un recurso. Además, la propagación incluye el uso de ataques que convierten un sistema GenAI en un vector para la propagación de gusanos.

Las mitigaciones, como la capacitación de modelos para que sean menos susceptibles a tales ataques, el desarrollo de sistemas de detección y la implementación de un procesamiento de entrada meticuloso pueden mejorar la robustez. Los enfoques incluyen el ajuste fino de modelos específicos para tareas y la limpieza de datos de terceros. Varios métodos también son similares a los utilizados para abordar las inyecciones de prompts directos, incluido el diseño de prompts para datos confiables y no confiables. Un enfoque clave es la creación de una confianza jerárquica de cada LLM empleado en el sistema para decidir las acciones. La educación pública también es un activo. Sin embargo, debido a que ninguna estrategia de mitigación garantiza la protección completa de una amplia gama de métodos de ataque, diseñar sistemas con la suposición de que los ataques de inyección de prompts son inevitables es un enfoque sensato, con modelos que tienen acceso limitado a bases de datos u otras fuentes de datos. En general, un enfoque integral y de defensa en profundidad debería seguir permitiendo avances significativos.

¿Cuáles son los riesgos de seguridad inherentes a los agentes y herramientas basados en GenAI?

Los agentes y herramientas basados en GenAI, aunque ofrecen capacidades sin precedentes, introducen riesgos de seguridad únicos debido a su arquitectura y a la forma en que interactúan con los datos y otros sistemas. Una preocupación principal es la susceptibilidad a los ataques de inyección de prompts, tanto directos como indirectos. La inyección directa de prompts ocurre cuando un atacante manipula el modelo a través de la entrada directa, anulando las instrucciones del sistema y potencialmente extrayendo información confidencial o induciendo comportamientos no deseados. La inyección indirecta de prompts, quizás más insidiosa, implica la manipulación de fuentes de datos externas que el agente o la herramienta utiliza para el contexto, lo que lleva a salidas o acciones comprometidas sin la intervención directa del usuario. Esto es particularmente problemático en las aplicaciones de Generación Aumentada por Recuperación (RAG), donde la información ingerida de fuentes externas puede estar elaborada maliciosamente.

Los riesgos específicos que surgen del uso de agentes GenAI incluyen el potencial de acceso no autorizado a API, la exfiltración de datos y la ejecución de código malicioso. Dado que los agentes operan de forma autónoma y, a menudo, tienen acceso a una variedad de herramientas y sistemas, representan una amplia superficie de ataque. Un agente comprometido podría, sin supervisión humana, ejecutar acciones dañinas como la difusión de información errónea, el acceso o la fuga de datos confidenciales o la interrupción de procesos críticos. El desafío inherente radica en el hecho de que las instrucciones y los datos no se proporcionan en canales separados al modelo GenAI, lo que es similar a tener un canal defectuoso para cualquier posible hackeo. El hecho de que las entradas de datos e instrucciones se puedan combinar de manera arbitraria abre vectores de ataque comparables a las vulnerabilidades de inyección SQL que son bien conocidas y ampliamente mitigadas en otras áreas del desarrollo de software.

Estos riesgos se amplifican aún más en escenarios donde las organizaciones confían en modelos o complementos desarrollados por terceros, lo que crea vulnerabilidades en la cadena de suministro. Un atacante podría introducir código malicioso o puertas traseras en estos componentes, lo que podría afectar a una amplia gama de aplicaciones posteriores. Debido a que los modelos se entrenan utilizando una vasta cantidad de datos en una amplia cantidad de conjuntos de datos diversos, los malos actores pueden participar en ataques a gran escala que pueden tener importantes efectos dominó en todo el sistema al que están conectados los agentes y herramientas basados en GenAI. Mitigar estos riesgos requiere un enfoque integral, que combine la validación robusta de la entrada, el monitoreo de la salida, las prácticas de codificación segura y una comprensión profunda de la superficie de ataque inherente a las tecnologías GenAI.

¿Cuáles son los principales desafíos y limitaciones en el campo del aprendizaje automático adversarial?

El campo del aprendizaje automático adversarial (AML) enfrenta desafíos inherentes, derivados de la tensión entre la optimización para el rendimiento en el caso promedio (precisión) y la garantía de robustez frente a los peores escenarios adversariales. Mejorar un aspecto puede afectar significativamente al otro, creando un delicado acto de equilibrio. Esto se complica aún más por la falta de algoritmos de aprendizaje automático teóricamente seguros en numerosas aplicaciones. Sin estas garantías, el desarrollo de mitigaciones adecuadas se vuelve complejo y desafiante, ya que los métodos pueden parecer prácticos pero a menudo pueden ser derrotados por técnicas imprevistas. La dependencia de mitigaciones ad hoc e impulsadas empíricamente crea un entorno donde los avances en defensa son seguidos de cerca por el descubrimiento de nuevos vectores de ataque correspondientes, creando un ciclo continuo de adaptación.

Otro desafío crítico radica en la evaluación comparativa, las limitaciones de la evaluación y el despliegue de la defensa. Las diferentes suposiciones y metodologías empleadas en diferentes estudios de AML a menudo conducen a resultados que son difíciles de comparar, lo que dificulta la obtención de conocimientos genuinos sobre la eficacia real de las técnicas de mitigación propuestas. El campo requiere evaluaciones comparativas estandarizadas para ayudar a acelerar el desarrollo de diseños de mitigación más rigurosos para proporcionar un marco a partir del cual pueda avanzar el despliegue. Además, la determinación de la eficacia de una mitigación también debe considerar la posibilidad de defenderse contra ataques actuales y futuros, que también deben incluirse en la evaluación. Además, la capacidad de detectar que un modelo está bajo ataque es extremadamente útil para permitir mejor las estrategias de mitigación al tener mayor claridad y conciencia situacional del panorama.

Compromisos entre los atributos de la IA confiable

Un desafío final se relaciona con el equilibrio de los múltiples atributos de la IA confiable. El campo AML se centra principalmente en la seguridad, la resiliencia y la robustez del modelo. También debe trabajar con técnicas para mejorar aspectos importantes como su interpretabilidad o explicabilidad.

La investigación revela un panorama donde la ingeniosidad adversaria desafía constantemente la seguridad y la fiabilidad de los sistemas de IA. Fortalecer nuestras defensas requiere una estrategia multifacética que vaya más allá de las medidas reactivas. Esto incluye identificar vulnerabilidades de forma proactiva, diseñar arquitecturas resilientes y establecer métodos de evaluación estandarizados. En última instancia, el camino a seguir exige un enfoque holístico del desarrollo de la IA, considerando no solo la precisión, sino también la robustez, la privacidad y las consideraciones éticas para garantizar el despliegue responsable y seguro de estas potentes tecnologías.

More Insights

La falta de transparencia en la regulación de IA perjudica a Europa

La UE está en riesgo de comprometer principios fundamentales al intentar simplificar las regulaciones para las empresas tecnológicas, confundiendo la transparencia con un obstáculo para la innovación...

El Congreso y los tribunales enfrentan los desafíos legales de la IA

La inteligencia artificial se está convirtiendo rápidamente en una parte integral de la vida cotidiana, lo que intensifica el debate sobre cómo utilizarla de manera adecuada y ética. El Congreso y los...

El Acta de IA de la UE: Desafíos y Oportunidades

La Ley de IA de la UE se convertirá en la primera regulación importante centrada en la inteligencia artificial, con el objetivo de garantizar que los sistemas de IA en Europa sean seguros y justos...

El Acta de IA de la UE: Desafíos y Oportunidades

La Ley de IA de la UE se convertirá en la primera regulación importante centrada en la inteligencia artificial, con el objetivo de garantizar que los sistemas de IA en Europa sean seguros y justos...

Impacto del modelo DeepSeek en la regulación de la IA en la UE

La aparición del modelo de IA chino DeepSeek está llevando a los responsables políticos de la UE a considerar cambios en la Ley de IA de la UE. Se prevé que una actualización de una medida de umbral...

Enfoques para Mitigar los Riesgos de la IA: ¿Suave, Duro o un Punto Intermedio?

El desarrollo de la inteligencia artificial presenta riesgos debido a que las herramientas modernas están desafiando los límites éticos bajo marcos legales existentes. Las diferencias regulatorias...

De Obstáculo a Potenciador: El Papel del Ingeniero de Datos en la IA Responsable

El artículo presenta un nuevo modelo de colaboración donde los equipos de ingeniería de datos pasan de ser constructores únicos a arquitectos de habilitación, empoderando a las unidades de negocio...

Riesgos y responsabilidades en la era de la IA

La inteligencia artificial (IA) está cada vez más presente en los negocios y en la vida social, pero su uso creciente también conlleva riesgos significativos, como sesgos algorítmicos y preocupaciones...