Aqui estão as perguntas de alto nível, separadas por ‘
O campo do aprendizado de máquina adversarial (AMA) surgiu para estudar ataques contra sistemas de aprendizado de máquina (AM) que exploram a natureza estatística, baseada em dados, intrínseca a esses sistemas. O AMA busca entender as capacidades dos atacantes, identificar quais propriedades do modelo ou sistema os atacantes visam violar e projetar métodos de ataque que exponham vulnerabilidades durante as fases de desenvolvimento, treinamento e implantação do ciclo de vida do AM. Também se concentra no desenvolvimento de algoritmos e sistemas de AM que resistam a esses desafios de segurança e privacidade, uma propriedade conhecida como robustez. Isso envolve a categorização de ataques por tipo de sistema de IA (preditivo ou generativo), o estágio do ciclo de vida do AM visado, as metas e objetivos do atacante em relação às propriedades do sistema que eles pretendem violar, as capacidades e o acesso do atacante e seu conhecimento do processo de aprendizado.
Central para o AMA é a taxonomia de ataques contra sistemas de IA preditiva (IAPred) e IA generativa (IAGen), considerando todo o sistema de IA, incluindo dados, modelos, treinamento, testes, processos de implantação e os contextos de software e sistema mais amplos nos quais os modelos estão incorporados. Classificar ataques em relação ao tipo de sistema de IA e ao estágio do ciclo de vida do AM permite uma compreensão estruturada de como um adversário pode comprometer o sistema. Crucialmente, esta taxonomia também identifica as metas e objetivos do atacante, em termos de quais propriedades do sistema devem ser violadas (por exemplo, disponibilidade, integridade, privacidade, uso indevido). A taxonomia é ainda informada pelas capacidades e níveis de acesso do atacante (por exemplo, controle de dados de treinamento, controle de modelo, acesso a consultas) e seu conhecimento do processo de aprendizado, diferenciando entre ataques de caixa branca, caixa preta e caixa cinza com base no nível de informação disponível para o adversário. Esta classificação detalhada fornece uma estrutura fundamental para o desenvolvimento de estratégias de mitigação direcionadas e eficazes.
Principais Desafios no Aprendizado de Máquina Adversarial
Vários desafios críticos devem ser abordados no AMA. Estes incluem navegar pelas compensações inerentes entre os atributos da IA confiável (como equilibrar a precisão com a robustez e a justiça), lidar com as limitações teóricas da robustez adversarial que podem limitar a eficácia das técnicas de mitigação e estabelecer métodos de avaliação rigorosos e bem definidos. O campo requer atualizações e adaptações contínuas à medida que novos desenvolvimentos em ataques e mitigações de AMA surgem. Portanto, a padronização da terminologia para termos de AMA é essencial para superar as diferenças entre as comunidades de partes interessadas, e uma taxonomia clara documentando ataques comuns contra sistemas de IAPred e IAGen é crucial para orientar o desenvolvimento de métodos de mitigação eficazes. Abordar esses desafios constitui um passo significativo para garantir a integração responsável e segura dos sistemas de IA em vários setores.
Quais são as principais classes de ataques a sistemas PredAI?
O panorama de ataques contra sistemas de IA Preditiva (PredAI) pode ser amplamente categorizado em três classes principais: evasão, envenenamento e ataques de privacidade. Cada classe representa um objetivo adversarial distinto, visando diferentes fases do pipeline de aprendizado de máquina e explorando diferentes vulnerabilidades do sistema. Ataques de evasão visam contornar a funcionalidade pretendida de um modelo implantado, elaborando exemplos adversários, entradas sutilmente modificadas que causam uma classificação incorreta, permanecendo imperceptíveis para humanos. Ataques de envenenamento, por outro lado, visam a fase de treinamento, onde os adversários manipulam dados de treinamento ou parâmetros do modelo para degradar o desempenho geral do modelo ou introduzir comportamentos maliciosos específicos. Ataques de privacidade se concentram em comprometer a confidencialidade dos dados de treinamento ou do próprio modelo, potencialmente revelando informações confidenciais sobre indivíduos ou algoritmos proprietários. Compreender essas classes é crucial para desenvolver defesas robustas e gerenciar os riscos associados à implantação de sistemas PredAI em aplicações do mundo real.
Dentro de cada uma dessas categorias amplas, técnicas de ataque específicas alavancam diferentes capacidades do adversário e exploram vulnerabilidades do sistema em vários estágios do ciclo de vida do aprendizado de máquina. Por exemplo, dentro dos ataques de envenenamento, o envenenamento de dados envolve inserir ou modificar amostras de treinamento, enquanto o envenenamento de modelo se concentra em manipular diretamente os parâmetros do modelo. Da mesma forma, ataques de privacidade abrangem uma variedade de métodos, incluindo reconstrução de dados, inferência de associação, inferência de propriedade e extração de modelo, cada um com objetivos e consequências distintos. Defender-se contra esses ataques requer uma abordagem abrangente que considere todos os estágios do pipeline de aprendizado de máquina e aborde as vulnerabilidades potenciais em vários componentes do sistema. Por exemplo, a higienização de dados, métodos de treinamento robustos e mecanismos de privacidade diferencial podem ser empregados para mitigar os impactos de diferentes classes de ataque.
Além disso, a classificação desses ataques ajuda a entender a interconexão das violações de segurança. Alguns ataques, embora classificados principalmente sob um objetivo (por exemplo, integridade), podem ter impactos em outras propriedades do sistema, como disponibilidade ou privacidade. Ataques de envenenamento de backdoor, por exemplo, violam principalmente a integridade, influenciando o modelo a classificar incorretamente amostras contendo um gatilho específico, mas também podem interromper a disponibilidade se o gatilho for facilmente descoberto ou amplamente aplicável. Compreender essas relações permite que as estratégias de defesa sejam multifacetadas, reforçando a confiabilidade geral do sistema de IA para mitigar várias categorias de risco.
Quais são os métodos para montar e mitigar ataques de evasão em sistemas PredAI?
Ataques de evasão são uma ameaça crítica aos sistemas PredAI, envolvendo a geração de exemplos adversários que são entradas sutilmente modificadas, projetadas para causar erros de classificação pelo modelo. Os atacantes conseguem isso adicionando perturbações a amostras limpas, com o objetivo de alterar a previsão do modelo, mantendo a aparência realista da entrada modificada. Esses ataques podem ser amplamente categorizados com base no conhecimento do atacante sobre o sistema, variando de cenários de caixa branca, onde o atacante possui informações completas sobre a arquitetura e os parâmetros do modelo, a cenários de caixa preta, onde o atacante tem conhecimento mínimo e depende do acesso de consulta ao modelo. Métodos baseados em otimização são comuns em ataques de caixa branca, utilizando técnicas como gradiente descendente para encontrar perturbações mínimas, mas eficazes. Em configurações de caixa preta, técnicas como otimização de ordem zero, otimização discreta e transferibilidade são empregadas.
Abordar ataques de evasão requer uma abordagem em constante evolução, pois as defesas são frequentemente contornadas por ataques mais sofisticados. As mitigações devem ser avaliadas contra adversários adaptáveis fortes e aderir a padrões de avaliação rigorosos. Três classes principais de defesas mostraram ser promissoras: treinamento adversarial, que envolve aumentar iterativamente os dados de treinamento com exemplos adversários; suavização aleatória, que transforma um classificador em um classificador robusto certificável, produzindo previsões sob ruído; e técnicas de verificação formal, que aplicam técnicas de método formal para verificar as saídas do modelo. Apesar de seu potencial, esses métodos vêm com limitações, como precisão reduzida ou custo computacional aumentado.
Técnicas de Evasão de Caixa Branca e Caixa Preta
Em ataques de caixa branca, o objetivo do atacante é encontrar uma perturbação pequena, mas eficaz, que altere o rótulo de classificação. Métodos baseados em otimização e ataques fisicamente realizáveis destacam a sofisticação dessas técnicas. Métodos baseados em otimização criam ataques adversários por meio do método L-BFGS e gradiente descendente. Isso gera pequenas perturbações e altera o rótulo de classificação para o que o atacante deseja. Ataques fisicamente realizáveis são ataques que podem ser implementados no mundo físico em coisas como placas de trânsito ou óculos. Exemplos adversários também podem ser aplicáveis em configurações de caixa preta. Ataques baseados em pontuação têm atacantes obtendo as pontuações de confiança ou logits do modelo e podem usar várias técnicas de otimização para criar os exemplos adversários. Ataques baseados em decisão são criados em configurações mais restritivas e o atacante obtém apenas os rótulos preditos finais do modelo. O principal desafio com configurações de caixa preta é o número de consultas aos modelos de ML usados.
Técnicas de Mitigação
Mitigar exemplos adversários é um desafio bem conhecido na comunidade. Os ataques existentes são então subsequentemente quebrados por ataques mais poderosos. Isso requer que novas mitigações sejam avaliadas contra fortes ataques adaptativos. A partir da ampla gama de defesas propostas, três classes principais de defesas provaram ser resilientes. Estes incluem, treinamento adversarialmente usando os rótulos corretos, suavização aleatória usada para transformar qualquer classificador em um classificador suave robusto certificável e técnicas de verificação formal para robustez de rede neural.
Quais são os métodos para montar e mitigar ataques de envenenamento em sistemas PredAI?
Ataques de envenenamento contra sistemas PredAI podem ser montados durante a fase de treinamento, com o objetivo de corromper o processo de aprendizado. Esses ataques abrangem um espectro de sofisticação, desde simples inversão de rótulos até técnicas complexas baseadas em otimização que exigem graus variados de conhecimento sobre o sistema de ML (Machine Learning) alvo. Ataques de envenenamento de dados envolvem a introdução ou modificação de amostras de treinamento, potencialmente degradando o desempenho do modelo indiscriminadamente (envenenamento de disponibilidade) ou impactando seletivamente amostras específicas (envenenamento direcionado). O envenenamento de backdoor complica ainda mais o cenário ao incorporar gatilhos ocultos, causando classificação incorreta apenas quando esses gatilhos estão presentes. Ataques de envenenamento de modelo, prevalente em aprendizado federado e cenários de cadeia de suprimentos, manipulam diretamente os parâmetros do modelo, permitindo que os invasores influenciem o comportamento geral aprendido. Em cada instância de ataque, cenários do mundo real, como aqueles que visam IA de chatbot e classificadores de malware, e sistemas de controle industrial provaram essa tática.
As estratégias de mitigação contra ataques de envenenamento abrangem uma gama de medidas preventivas e intervenções reativas. A higienização de dados de treinamento busca limpar proativamente os conjuntos de dados, identificando e removendo amostras envenenadas. As abordagens de treinamento robustas, inversamente, visam modificar o algoritmo de treinamento de ML para aprimorar a resiliência do modelo, incorporando técnicas como métodos ensemble e otimização robusta. As abordagens de reconstrução de gatilho reconstroem o gatilho de backdoor para localizar dados comprometidos e limpar neuralmente o modelo, e as técnicas de inspeção de modelo analisam modelos treinados em busca de indicadores de adulteração. Existem também defesas certificadas, que tentam combinar métodos de limpeza de dados com a adição de ruído. Técnicas como a perícia de veneno podem ser usadas ainda em caso de um ataque adversarial bem-sucedido após a implantação do modelo, a fim de realizar uma análise de causa raiz para permitir que o invasor seja encontrado. A seleção da mitigação certa não é direta e requer o equilíbrio entre precisão, robustez e custo computacional. Além disso, a existência de Trojans teoricamente indetectáveis também coloca desafios para o gerenciamento de risco da cadeia de suprimentos de IA.
Desafios e Direções Futuras para Mitigação
Apesar dos avanços contínuos nas estratégias de mitigação, os desafios remanescentes persistem na defesa contra ataques de envenenamento. Gatilhos funcionais e semânticos sofisticados podem evadir as técnicas de higienização e reconstrução existentes. Os meta-classificadores para prever modelos comprometidos enfrentam altos custos computacionais, e a mitigação de ataques à cadeia de suprimentos permanece complexa quando os adversários controlam o código-fonte. Projetar modelos que sejam robustos diante do envenenamento do modelo da cadeia de suprimentos continua sendo um desafio crítico. Ainda existem desafios pendentes, como garantir a robustez de modelos multimodais. Adicionalmente, os trade-offs entre diferentes atributos e a falta de benchmarks confiáveis tornam complexa a medição dos verdadeiros pontos fortes de várias mitigações. Projetar modelos de ML que resistam ao envenenamento, mantendo a precisão, permanece um problema em aberto.
Quais são os métodos para montar e mitigar ataques de privacidade em sistemas PredAI?
Ataques de privacidade em sistemas PredAI visam extrair informações restritas ou proprietárias, incluindo detalhes sobre dados de treinamento, pesos do modelo ou arquitetura. Esses ataques podem ser montados independentemente de a confidencialidade dos dados ter sido mantida durante o treinamento e se concentram, em vez disso, em compromissos de privacidade que ocorrem no momento da implantação. Alguns métodos de ataque de privacidade proeminentes incluem reconstrução de dados (inferir o conteúdo ou características dos dados de treinamento), inferência de associação (inferir se um ponto de dados específico foi usado no treinamento) e extração de modelo (roubar a arquitetura ou parâmetros do modelo). Os invasores conduzem esses ataques explorando o acesso de consulta do modelo, um cenário realista em configurações de Machine Learning as a Service (MLaaS) que permitem consultar sem revelar os internos do modelo. Ataques de reconstrução de dados, por exemplo, aproveitam a tendência do modelo de memorizar dados de treinamento para fazer engenharia reversa de registros de usuários confidenciais. A inferência de associação explora diferenças no comportamento do modelo (por exemplo, valores de perda) entre dados presentes e ausentes do processo de treinamento. Cada ataque tem como objetivo revelar informações confidenciais que, de outra forma, deveriam ser privadas.
As estratégias de mitigação contra ataques de privacidade geralmente giram em torno do princípio da privacidade diferencial (DP). Os mecanismos de DP injetam ruído cuidadosamente calibrado no processo de treinamento ou nas saídas do modelo para limitar a quantidade de informações que um invasor pode inferir sobre registros individuais. As técnicas comuns de DP incluem adicionar ruído Gaussiano ou Laplace ao modelo durante o treinamento usando DP-SGD, que limita a probabilidade de um invasor determinar se um registro específico existe no conjunto de dados. No entanto, a integração do DP geralmente introduz compensações entre o nível de privacidade alcançado e a utilidade do modelo. Especificamente, o aumento da aplicação de DP resulta em menor precisão dos dados. Compensações eficazes entre privacidade e utilidade são geralmente alcançadas pela validação empírica de cada algoritmo. Portanto, técnicas para verificar o nível de proteção precisam ser desenvolvidas e aplicadas a toda a cadeia de dados.
Outra técnica de mitigação crítica em resposta à extração de informações sobre um modelo de outros usuários pode ser implementar e operar o desaprendizado de máquina. Esta técnica é usada para permitir que os titulares de dados solicitem a extração de suas informações pessoais do modelo. Existem várias técnicas de desaprendizado e compensações que devem ser feitas ao implementar cada uma. Para segurança de modelo de nível superior, restringir consultas de usuários, detectar consultas suspeitas ao modelo ou criar arquiteturas que impeçam ataques de canal lateral pode ser usado. Essas técnicas, no entanto, podem ser ignoradas por invasores motivados e, portanto, não são soluções completas. Combinar várias estratégias de proteção levará a controles eficazes contra ataques.
Quais são as principais classes de ataques a sistemas GenAI?
As principais classes de ataques a sistemas GenAI podem ser amplamente categorizadas com base nos objetivos do atacante: violações de disponibilidade, violações de integridade, compromissos de privacidade e habilitação de uso indevido. Ataques à cadeia de suprimentos, embora relevantes tanto para IA preditiva quanto para IA generativa, justificam atenção específica devido às complexidades introduzidas por dependências de terceiros e ao potencial de impacto generalizado. Ataques de prompting diretos e indiretos exploram ainda mais vulnerabilidades exclusivas decorrentes da combinação de dados e instruções em sistemas GenAI.
Ataques de disponibilidade, como envenenamento de dados, injeção indireta de prompt e injeção de prompt, visam interromper a capacidade de outros usuários ou processos de acessar o sistema GenAI. Ataques de integridade, alcançados por meio de envenenamento de dados, injeção indireta de prompt, injeção de prompt, envenenamento de backdoor, envenenamento direcionado e saídas desalinhadas, comprometem a função pretendida do sistema, fazendo com que ele produza conteúdo incorreto ou maliciosamente elaborado. Ataques de privacidade aproveitam a injeção indireta de prompt, injeção de prompt, envenenamento de backdoor, inferência de associação, extração de prompt e vazamento de dados de interações do usuário, ataques de dados de treinamento, extração de dados e comprometimento de recursos conectados para obter acesso não autorizado a dados ou expor informações confidenciais. A nova categoria de ataque de habilitação de uso indevido envolve contornar as restrições nas saídas do modelo, normalmente por meio de injeção de prompt ou ajuste fino para remover mecanismos de alinhamento de segurança.
Compreender essas categorias é fundamental para desenvolver estratégias de mitigação eficazes. Essas defesas são adaptadas para combater diferentes vetores de ataque e proteger atributos essenciais das implementações de GenAI. As estratégias de mitigação geralmente exigem uma abordagem em camadas, incorporando técnicas de pré-treinamento e pós-treinamento com monitoramento e filtragem em tempo real. Respostas eficazes a esses ataques exigem uma avaliação completa das vulnerabilidades do sistema e um envolvimento contínuo com o cenário em evolução de métodos adversários.
Quais são os riscos e mitigações relacionados a ataques à cadeia de suprimentos de dados e modelos em sistemas GenAI?
Ataques à cadeia de suprimentos de dados e modelos representam riscos significativos para a integridade e segurança dos sistemas GenAI. Dada a dependência de modelos pré-treinados e fontes de dados externas, esses ataques podem ter consequências de longo alcance. Ataques de envenenamento de dados envolvem a inserção de dados maliciosos em conjuntos de dados de treinamento, potencialmente levando a backdoors ou vieses nos modelos resultantes. Esses modelos envenenados podem então fazer com que os aplicativos downstream exibam comportamentos indesejados ou prejudiciais. Ataques de envenenamento de modelos, por outro lado, envolvem a modificação direta dos parâmetros do modelo, tornando disponíveis modelos pré-treinados que podem conter backdoors, que são frequentemente difíceis de detectar e caros de remediar. Um invasor com controle do modelo tem a capacidade de modificar os parâmetros do modelo, como por meio de APIs disponíveis publicamente e/ou pesos de modelo abertamente acessíveis. Essa capacidade é usada em ataques de envenenamento de modelo, onde um adversário se infiltrou nos dados de treinamento e pode fazer com que os dados downstream falhem. Como os comportamentos de ataque podem ser transferíveis, modelos de peso aberto podem se tornar vetores de ataque úteis para transferir para sistemas fechados durante os quais apenas o acesso à API é permitido.
Mitigar esses riscos da cadeia de suprimentos requer uma abordagem multifacetada que inclua práticas tradicionais da cadeia de suprimentos de software e medidas específicas de IA. As técnicas de higienização de dados desempenham um papel crucial na identificação e remoção de amostras envenenadas de conjuntos de dados de treinamento. A verificação e validação do modelo são essenciais para garantir a integridade dos modelos pré-treinados antes de sua adoção. Métodos de treinamento robustos e técnicas criptográficas para atestado de proveniência e integridade podem fornecer garantias adicionais. Além disso, as organizações que adotam modelos GenAI devem estar cientes de quão pouco se sabe sobre técnicas de envenenamento de modelos e devem projetar aplicativos de forma que os riscos de saídas de modelos controladas por invasores sejam reduzidos. A indústria também deve buscar capacidades de segurança cibernética para integridade comprovada. Uma higiene de dados mais geral, incluindo segurança cibernética e proteção de proveniência, sobe a montante com a coleta de dados. Ao publicar rótulos e links de dados, o downloader deve verificar.
Outras Mitigações e Considerações
Além das principais estratégias de mitigação de higienização de dados e modelos, compreender os modelos como componentes de sistema não confiáveis e projetar aplicativos de forma que os riscos e resultados de saídas de modelos controladas por invasores sejam reduzidos é imperativo. Mais segurança e risco podem ser mitigados combinando as práticas existentes para gerenciamento de risco da cadeia de suprimentos de software e informações de proveniência específicas. Outra consideração para mitigar riscos inclui verificar os downloads da web usados para treinamento como uma verificação básica de integridade para garantir que um sequestro de domínio não tenha injetado novas fontes de dados no conjunto de dados de treinamento. Outras medidas incluem detecção por meio de mecanismos mecanizados para localizar vulnerabilidades e alterações de design nos próprios aplicativos que melhoram a ciber-higiene geral.
Quais são os métodos para montar e mitigar ataques de *prompting* direto?
Ataques de *prompting* direto são uma preocupação significativa em IA generativa, onde atores maliciosos manipulam a entrada para grandes modelos de linguagem (LLMs) para provocar comportamentos não intencionais ou prejudiciais. Esses ataques envolvem diretamente o usuário como a principal interface do sistema, consultando o modelo de maneiras que subvertem seu propósito pretendido. Uma técnica prevalente é a injeção de *prompt*, onde instruções adversárias são incorporadas no conteúdo fornecido pelo usuário para substituir ou alterar o *prompt* do sistema do LLM. Isso burla as medidas de segurança projetadas para impedir a geração de saídas restritas ou inseguras, uma forma de ataque frequentemente referida como *jailbreaking*. As técnicas para *prompting* direto incluem ataques baseados em otimização, contando com métodos baseados em pesquisa e entradas adversárias. Métodos manuais oferecem ataques mais simples baseados na geração de objetivos concorrentes ou generalizações incompatíveis em *prompts*. Testes automatizados de *red teaming* baseados em modelo testam modelos ainda mais a fundo.
Mitigar ataques de *prompting* direto requer uma abordagem multifacetada que abrange o ciclo de vida da implantação de IA. Estratégias de proteção podem ser aplicadas durante as fases de pré-treinamento e pós-treinamento, como incluir treinamento de segurança para tornar o *jailbreaking* mais desafiador e empregar treinamento adversário para aumentar as capacidades defensivas do modelo. Outras medidas de treinamento são refinar os dados que o modelo usa, aumentando assim a eficácia do modelo. Os esforços contínuos giram em torno da fase de avaliação, com *benchmarks* projetados para medir a eficácia de tais ataques na arquitetura de um modelo. A implantação oferece um espaço para o engenheiro de *prompt* implementar técnicas de formatação, métodos de detecção e modificações de entrada nas entradas do usuário para proteger a função do LLM. Ao entender as táticas em evolução da injeção de *prompt* e combinar estratégias de mitigação, os desenvolvedores podem reforçar as defesas dos sistemas GenAI contra ataques de *prompting* direto e, assim, garantir um uso de IA mais seguro e confiável.
Quais são os ataques de extração de informações usados contra modelos GenAI?
Ataques de extração de informações contra modelos Generative AI (GenAI) são um subconjunto de ataques de prompting direto que alavancam as próprias capacidades do modelo para revelar informações sensíveis ou proprietárias. Os invasores exploram a capacidade do modelo de acessar, processar e entender dados, coagindo-o a divulgar informações que nunca foram destinadas ao consumo público. Um fator chave que possibilita tais ataques é que os sistemas GenAI operam combinando dados e instruções no mesmo canal, uma escolha de design que cria o potencial para que instruções maliciosas substituam ou corrompam o comportamento esperado. Esses ataques geralmente se concentram na ingestão de dados em tempo de execução, onde o LLM recebe fluxos de dados de fontes externas.
Várias abordagens são empregadas para realizar ataques de extração de informações. Uma técnica envolve solicitar ao LLM que repita ou regurgite documentos inteiros ou dados confidenciais de seu contexto, muitas vezes alcançado pedindo ao modelo para “repetir todas as frases em nossa conversa” ou “extrair todas as palavras-chave e entidades do texto acima”. Outro método utiliza técnicas de roubo de prompt para reconstruir o prompt original do sistema. Esses prompts contêm instruções vitais que alinham os LLMs a um caso de uso específico e, portanto, podem ser considerados segredos comerciais valiosos. Uma terceira técnica envolve ataques de extração de modelo, nos quais o objetivo é extrair informações sobre a arquitetura e os parâmetros dos modelos. Como as informações extraídas podem ser usadas para formular ataques mais eficazes ou podem minar as proteções de propriedade intelectual, a extração de informações representa uma ameaça significativa à segurança e integridade dos sistemas GenAI.
Mitigar ataques de extração de informações requer uma abordagem em camadas. O controle de acesso deve garantir que o modelo não tenha acesso a materiais que resultariam em consequências inaceitáveis de segurança se fossem exfiltrados. As defesas precisam ser implantadas em ambos os níveis de modelo e sistema: salvaguardas baseadas em prompt que detectam e redigem informações confidenciais e salvaguardas de rede ou infraestrutura que impedem a exfiltração de dados para sistemas não confiáveis. Além disso, é possível adicionar filtros às entradas do aplicativo na tentativa de impedir que certos comandos de extração sejam inseridos no modelo em primeiro lugar. Projetar sistemas sob a suposição de que os modelos podem ser comprometidos e vazar informações também oferecerá proteção durante esses ataques.
Quais são os métodos para montar e mitigar ataques de injeção de prompt indireta?
Um ataque de injeção de prompt indireta ocorre quando um atacante modifica recursos externos que um modelo de IA Generativa (GenAI) ingere em tempo de execução. Essa manipulação então permite que o atacante injete instruções adversárias sem interagir diretamente com o aplicativo. Esses ataques podem resultar em violações de disponibilidade, violações de integridade ou compromissos de privacidade, ao contrário dos ataques de injeção de prompt direta, que são iniciados pelo usuário primário. Portanto, ataques indiretos podem ser mais insidiosos, armando sistemas contra seus usuários de maneiras difíceis de prever. A disponibilidade pode ser comprometida injetando prompts que instruem o modelo a realizar tarefas demoradas, inibindo o uso da API ou interrompendo a formatação da saída. Por exemplo, um atacante poderia direcionar um modelo para substituir caracteres por homóglifos ou forçar o modelo a retornar uma saída vazia por meio de manipulação específica de tokens.
Ataques de injeção de prompt indireta também podem comprometer a integridade de um modelo GenAI. Eles podem ser manipulados usando recursos maliciosos para introduzir geração de conteúdo adversário. As ações podem incluir a geração de resumos incorretos ou a disseminação de desinformação. Recursos conhecidos usados em testes são o jailbreaking, empregando técnicas de otimização para desenvolver prompts ou explorando relacionamentos de confiança hierárquicos em prompts. Outras técnicas incluem o envenenamento da base de conhecimento, que envolve contaminar a base de conhecimento de um sistema RAG para influenciar a saída do LLM direcionada a consultas específicas do usuário, como em PoisonedRAG. Além disso, o ocultamento de injeção envolve técnicas para ocultar injeções adversárias em porções não visíveis de um recurso. Além disso, a propagação inclui o uso de ataques que transformam um sistema GenAI em um vetor para espalhar worms.
Mitigações como treinar modelos para serem menos suscetíveis a tais ataques, desenvolver sistemas de detecção e implementar um processamento de entrada meticuloso podem melhorar a robustez. As abordagens incluem ajustar modelos específicos de tarefas e limpar dados de terceiros. Vários métodos também são semelhantes aos usados para lidar com injeções de prompt direta, incluindo projetar prompts para dados confiáveis e não confiáveis. Uma abordagem chave é a criação de confiança hierárquica de cada LLM empregado no sistema para decidir ações. A educação pública também é um trunfo. No entanto, como nenhuma estratégia de mitigação garante proteção total de uma ampla gama de métodos de ataque, projetar sistemas com a suposição de que ataques de injeção de prompt são inevitáveis é uma abordagem sábia, com modelos tendo acesso limitado a bancos de dados ou outras fontes de dados. No geral, uma abordagem abrangente e de defesa em profundidade deve continuar a permitir avanços significativos.
Quais são os riscos de segurança inerentes aos agentes e ferramentas baseados em GenAI?
Agentes e ferramentas baseados em GenAI, embora ofereçam capacidades sem precedentes, introduzem riscos de segurança únicos devido à sua arquitetura e à forma como interagem com dados e outros sistemas. Uma preocupação primária é a suscetibilidade a ataques de injeção de prompt, tanto diretos quanto indiretos. A injeção direta de prompt ocorre quando um invasor manipula o modelo através de entrada direta, substituindo as instruções do sistema e potencialmente extraindo informações confidenciais ou induzindo comportamentos não intencionais. A injeção indireta de prompt, talvez mais insidiosa, envolve a manipulação de fontes de dados externas que o agente ou ferramenta usa para contexto, levando a saídas ou ações comprometidas sem intervenção direta do usuário. Isso é particularmente problemático em aplicações de Geração Aumentada por Recuperação (RAG), onde informações ingeridas de fontes externas podem ser criadas maliciosamente.
Riscos específicos decorrentes do uso de agentes GenAI incluem o potencial de acesso não autorizado a APIs, exfiltração de dados e execução de código malicioso. Como os agentes operam autonomamente e frequentemente têm acesso a uma variedade de ferramentas e sistemas, eles representam uma ampla superfície de ataque. Um agente comprometido poderia, sem supervisão humana, executar ações prejudiciais, como espalhar desinformação, acessar ou vazar dados confidenciais ou interromper processos críticos. O desafio inerente reside no facto de as instruções e os dados não serem fornecidos em canais separados ao modelo GenAI, o que é semelhante a ter um canal defeituoso para qualquer possível ataque. O facto de os dados e as entradas de instrução poderem ser combinados de forma arbitrária abre vetores de ataque comparáveis às vulnerabilidades de injeção de SQL que são bem conhecidas e amplamente mitigadas em outras áreas do desenvolvimento de software.
Esses riscos são ainda mais amplificados em cenários onde as organizações dependem de modelos ou plugins desenvolvidos por terceiros, criando vulnerabilidades na cadeia de suprimentos. Um invasor pode introduzir código malicioso ou backdoors nesses componentes, afetando potencialmente uma ampla gama de aplicações downstream. Como os modelos são treinados utilizando uma vasta quantidade de dados em um grande número de conjuntos de dados diversos, os maus atores podem se envolver em ataques em larga escala que podem ter grandes efeitos cascata em todo o sistema ao qual os agentes e ferramentas baseados em GenAI estão conectados. Mitigar esses riscos requer uma abordagem abrangente, combinando validação robusta de entrada, monitoramento de saída, práticas de codificação seguras e uma profunda compreensão da superfície de ataque inerente às tecnologias GenAI.
portuguese
Quais são os principais desafios e limitações no campo do aprendizado de máquina adversarial?
O campo do aprendizado de máquina adversarial (AML) enfrenta desafios inerentes, decorrentes da tensão entre otimizar o desempenho do caso médio (precisão) e garantir a robustez contra os piores cenários adversariais. Melhorar um aspecto pode impactar significativamente o outro, criando um delicado ato de equilíbrio. Isso é ainda mais complicado pela falta de algoritmos de aprendizado de máquina teoricamente seguros em diversas aplicações. Sem essas garantias, desenvolver mitigações adequadas torna-se complexo e desafiador, pois os métodos podem parecer práticos, mas geralmente podem ser derrotados por técnicas imprevistas. A dependência de mitigações ad hoc, empiricamente orientadas, cria um ambiente onde os avanços na defesa são seguidos de perto pela descoberta de novos vetores de ataque correspondentes, criando um ciclo contínuo de adaptação.
Outro desafio crítico reside na avaliação comparativa, limitações de avaliação e implantação de defesa. As diferentes premissas e metodologias empregadas em diferentes estudos de AML geralmente levam a resultados que são difíceis de comparar, dificultando a obtenção de insights genuínos sobre a eficácia real das técnicas de mitigação propostas. O campo requer benchmarks padronizados para ajudar a acelerar o desenvolvimento de projetos de mitigação mais rigorosos para fornecer uma estrutura a partir da qual a implantação possa progredir. Além disso, determinar a eficácia de uma mitigação também deve considerar a possibilidade de defender-se contra ataques atuais e futuros, que também devem ser incluídos na avaliação. Além disso, a capacidade de detectar que um modelo está sob ataque é extremamente útil para habilitar melhor as estratégias de mitigação, tendo maior clareza e consciência situacional do cenário.
Tradeoffs Entre Atributos da IA Confiável
Um desafio final está relacionado ao equilíbrio dos múltiplos atributos da IA confiável. O campo AML está focado principalmente na segurança, resiliência e robustez do modelo. Ele também deve funcionar com técnicas para aprimorar aspectos importantes, como sua interpretabilidade ou explicabilidade.