AI Sous Attaque : Analyser les Vulnérabilités et Construire un Apprentissage Automatique Résilient

L’essor de l’intelligence artificielle offre un potentiel immense, mais expose également des vulnérabilités que des acteurs malveillants peuvent exploiter. Tout comme nous fortifions les logiciels traditionnels contre les cyberattaques, nous devons comprendre et neutraliser les menaces ciblant les mécanismes d’apprentissage fondamentaux de l’IA. Cette exploration plonge au cœur du monde de l’apprentissage automatique adversarial, décomposant les tactiques évolutives utilisées pour compromettre les systèmes d’IA prédictifs et génératifs. En examinant les différentes surfaces d’attaque – de la manipulation des données à la subversion des modèles – nous visons à éclairer la voie vers la construction d’une IA plus résiliente et digne de confiance pour l’avenir. Cette analyse explorera les défis, de l’équilibre entre la précision et la sécurité à l’établissement de normes d’évaluation cohérentes, afin de faciliter l’intégration responsable de l’IA dans tous les secteurs.

french

Voici les questions de haut niveau, séparées par ‘

Le domaine de l’apprentissage machine adversarial (AML) a émergé pour étudier les attaques contre les systèmes d’apprentissage machine (ML) qui exploitent la nature statistique, basée sur les données, intrinsèque à ces systèmes. L’AML cherche à comprendre les capacités des attaquants, à identifier les propriétés du modèle ou du système que les attaquants visent à violer, et à concevoir des méthodes d’attaque qui exposent les vulnérabilités pendant les phases de développement, d’entraînement et de déploiement du cycle de vie du ML. Il se concentre également sur le développement d’algorithmes et de systèmes de ML qui résistent à ces défis de sécurité et de confidentialité, une propriété connue sous le nom de robustesse. Cela implique de classer les attaques par type de système d’IA (prédictif ou génératif), l’étape du cycle de vie du ML ciblée, les buts et objectifs de l’attaquant concernant les propriétés du système qu’il vise à enfreindre, les capacités et l’accès de l’attaquant, et sa connaissance du processus d’apprentissage.

Au cœur de l’AML se trouve la taxonomie des attaques contre l’IA prédictive (PredAI) et les systèmes d’IA générative (GenAI), en tenant compte de l’ensemble du système d’IA, y compris les données, les modèles, la formation, les tests, les processus de déploiement et les contextes logiciels et systèmes plus larges dans lesquels les modèles sont intégrés. La classification des attaques par rapport au type de système d’IA et à l’étape du cycle de vie du ML permet une compréhension structurée de la manière dont un adversaire pourrait compromettre le système. Essentiellement, cette taxonomie identifie également les buts et objectifs de l’attaquant, en termes de propriétés du système qui doivent être violées (par exemple, la disponibilité, l’intégrité, la confidentialité, l’utilisation abusive). La taxonomie est en outre éclairée par les capacités et les niveaux d’accès de l’attaquant (par exemple, le contrôle des données d’entraînement, le contrôle du modèle, l’accès aux requêtes) et sa connaissance du processus d’apprentissage, en différenciant les attaques en boîte blanche, en boîte noire et en boîte grise en fonction du niveau d’information disponible pour l’adversaire. Cette classification détaillée fournit un cadre fondamental pour le développement de stratégies d’atténuation ciblées et efficaces.

Principaux défis de l’apprentissage machine adversarial

Plusieurs défis critiques doivent être relevés dans l’AML. Il s’agit notamment de naviguer dans les compromis inhérents entre les attributs de l’IA de confiance (tels que l’équilibre entre la précision et la robustesse et l’équité), de lutter contre les limites théoriques de la robustesse adversarial qui peuvent limiter l’efficacité des techniques d’atténuation et d’établir des méthodes d’évaluation rigoureuses et bien définies. Le domaine nécessite des mises à jour et des adaptations continues au fur et à mesure que de nouveaux développements en matière d’attaques et d’atténuations AML émergent. Par conséquent, la normalisation de la terminologie pour les termes AML est essentielle pour combler les différences entre les communautés de parties prenantes, et une taxonomie claire documentant les attaques courantes contre les systèmes PredAI et GenAI est cruciale pour guider le développement de méthodes d’atténuation efficaces. Relever ces défis constitue une étape importante vers la garantie de l’intégration responsable et sécurisée des systèmes d’IA dans divers secteurs.
french

Quelles sont les principales classes d’attaques contre les systèmes PredAI ?

Le paysage des attaques contre les systèmes d’IA prédictive (PredAI) peut être globalement classé en trois catégories principales : les attaques par évasion, par empoisonnement et par atteinte à la vie privée. Chaque catégorie représente un objectif antagoniste distinct, ciblant différentes phases du pipeline d’apprentissage automatique et exploitant diverses vulnérabilités du système. Les attaques par évasion visent à contourner la fonctionnalité prévue d’un modèle déployé en créant des exemples adverses, des entrées subtilement modifiées qui provoquent une mauvaise classification tout en restant imperceptibles pour les humains. Les attaques par empoisonnement, quant à elles, ciblent la phase d’apprentissage, où les adversaires manipulent les données d’apprentissage ou les paramètres du modèle pour dégrader les performances globales du modèle ou introduire des comportements malveillants spécifiques. Les attaques à la vie privée se concentrent sur la compromission de la confidentialité des données de formation ou du modèle lui-même, révélant potentiellement des informations sensibles sur des individus ou des algorithmes propriétaires. Comprendre ces classes est essentiel pour développer des défenses robustes et gérer les risques associés au déploiement des systèmes PredAI dans des applications du monde réel.

Au sein de chacune de ces grandes catégories, des techniques d’attaque spécifiques tirent parti de différentes capacités de l’adversaire et exploitent les vulnérabilités du système à différents stades du cycle de vie de l’apprentissage automatique. Par exemple, dans le cadre des attaques par empoisonnement, l’empoisonnement des données consiste à insérer ou à modifier des échantillons d’apprentissage, tandis que l’empoisonnement du modèle se concentre sur la manipulation directe des paramètres du modèle. De même, les attaques à la vie privée englobent un éventail de méthodes, notamment la reconstruction des données, l’inférence d’appartenance, l’inférence de propriété et l’extraction de modèles, chacune ayant des objectifs et des conséquences distincts. Se défendre contre ces attaques nécessite une approche globale qui prend en compte toutes les étapes du pipeline d’apprentissage automatique et qui s’attaque aux vulnérabilités potentielles des différents composants du système. Par exemple, l’assainissement des données, les méthodes de formation robustes et les mécanismes de protection différentielle de la vie privée peuvent être utilisés pour atténuer les impacts des différentes classes d’attaques.

De plus, la classification de ces attaques permet de comprendre l’interconnexion des violations de sécurité. Certaines attaques, bien que classées principalement dans le cadre d’un objectif (par exemple, l’intégrité), peuvent avoir des impacts sur d’autres propriétés du système, telles que la disponibilité ou la vie privée. Les attaques d’empoisonnement de porte dérobée, par exemple, violent principalement l’intégrité en influençant le modèle pour qu’il classifie mal les échantillons contenant un déclencheur spécifique, mais elles peuvent également perturber la disponibilité si le déclencheur est facilement découvrable ou largement applicable. Comprendre ces relations permet aux stratégies de défense d’être multiformes, renforçant ainsi la fiabilité globale du système d’IA afin d’atténuer diverses catégories de risques.

Quelles sont les méthodes pour monter et atténuer les attaques par évasion sur les systèmes PredAI ?

Les attaques par évasion représentent une menace critique pour les systèmes PredAI, impliquant la génération d’exemples contradictoires qui sont des entrées subtilement modifiées conçues pour provoquer une mauvaise classification par le modèle. Les attaquants y parviennent en ajoutant des perturbations aux échantillons propres, dans le but de modifier la prédiction du modèle tout en conservant l’apparence réaliste de l’entrée modifiée. Ces attaques peuvent être largement classées en fonction de la connaissance du système par l’attaquant, allant des scénarios de boîte blanche, où l’attaquant possède des informations complètes sur l’architecture et les paramètres du modèle, aux scénarios de boîte noire, où l’attaquant a une connaissance minimale et s’appuie sur l’accès aux requêtes du modèle. Les méthodes basées sur l’optimisation sont courantes dans les attaques en boîte blanche, utilisant des techniques telles que la descente de gradient pour trouver des perturbations minimales mais efficaces. Dans les environnements de boîte noire, des techniques telles que l’optimisation d’ordre zéro, l’optimisation discrète et la transférabilité sont utilisées.

La lutte contre les attaques par évasion nécessite une approche en constante évolution, car les défenses sont souvent contournées par des attaques plus sophistiquées. Les mesures d’atténuation doivent être évaluées par rapport à de solides adversaires adaptatifs et respecter des normes d’évaluation rigoureuses. Trois principales classes de défenses se sont révélées prometteuses : l’entraînement contradictoire, qui consiste à augmenter de manière itérative les données d’entraînement avec des exemples contradictoires ; le lissage aléatoire, qui transforme un classificateur en un classificateur robuste certifiable en produisant des prédictions sous bruit ; et les techniques de vérification formelle, qui appliquent des techniques de méthodes formelles pour vérifier les sorties du modèle. Malgré leur potentiel, ces méthodes présentent des limites telles qu’une précision réduite ou un coût de calcul accru.

Techniques d’évasion en boîte blanche et en boîte noire

Dans les attaques en boîte blanche, l’objectif de l’attaquant est de trouver une perturbation petite mais efficace qui modifie l’étiquette de classification. Les méthodes basées sur l’optimisation et les attaques physiquement réalisables mettent en évidence la sophistication de ces techniques. Les méthodes basées sur l’optimisation créent des attaques contradictoires via la méthode L-BFGS et la descente de gradient. Cela génère de petites perturbations et modifie l’étiquette de classification vers ce que l’attaquant souhaite. Les attaques physiquement réalisables sont des attaques qui peuvent être mises en œuvre dans le monde physique dans des éléments tels que des panneaux de signalisation routière ou des lunettes. Les exemples contradictoires peuvent également être applicables dans les environnements de boîte noire. Les attaques basées sur le score permettent aux attaquants d’obtenir les scores de confiance ou les logits du modèle et peuvent utiliser diverses techniques d’optimisation pour créer les exemples contradictoires. Les attaques basées sur la décision sont créées dans des environnements plus restrictifs et l’attaquant n’obtient que les étiquettes prédites finales du modèle. Le principal défi des configurations de boîte noire est le nombre de requêtes utilisées auprès des modèles ML.

Techniques d’atténuation

L’atténuation des exemples contradictoires est un défi bien connu dans la communauté. Les attaques existantes sont ensuite brisées par des attaques plus puissantes. Cela nécessite que les nouvelles mesures d’atténuation soient évaluées par rapport à de fortes attaques adaptatives. Parmi le large éventail de défenses proposées, trois principales classes de défenses se sont révélées résilientes. Il s’agit notamment de l’entraînement contradictoire en utilisant les étiquettes correctes, du lissage aléatoire utilisé pour transformer n’importe quel classificateur en un classificateur lisse robuste certifiable et des techniques de vérification formelle pour la robustesse du réseau neuronal.

french

Quelles sont les méthodes pour lancer et atténuer les attaques par empoisonnement sur les systèmes PredAI ?

Les attaques par empoisonnement contre les systèmes PredAI peuvent être lancées pendant la phase d’apprentissage, dans le but de corrompre le processus d’apprentissage. Ces attaques couvrent un spectre de sophistication, allant du simple renversement d’étiquettes aux techniques complexes basées sur l’optimisation qui nécessitent différents degrés de connaissance du système d’apprentissage automatique ciblé. Les attaques d’empoisonnement de données impliquent l’introduction ou la modification d’échantillons d’apprentissage, ce qui peut potentiellement dégrader les performances du modèle de manière indiscriminée (empoisonnement de la disponibilité) ou avoir un impact sélectif sur des échantillons spécifiques (empoisonnement ciblé). L’empoisonnement par porte dérobée complique davantage le paysage en intégrant des déclencheurs cachés, provoquant une mauvaise classification uniquement lorsque ces déclencheurs sont présents. Les attaques d’empoisonnement de modèles, fréquentes dans l’apprentissage fédéré et les scénarios de chaîne d’approvisionnement, manipulent directement les paramètres du modèle, permettant aux attaquants d’influencer le comportement global appris. Dans chaque cas d’attaque, des scénarios du monde réel, comme ceux ciblant l’IA des chatbots et les classificateurs de logiciels malveillants, ainsi que les systèmes de contrôle industriels, ont prouvé cette tactique.

Les stratégies d’atténuation contre les attaques par empoisonnement englobent une gamme de mesures préventives et d’interventions réactives. La désinfection des données d’apprentissage vise à nettoyer de manière proactive les ensembles de données en identifiant et en supprimant les échantillons empoisonnés. Les approches d’apprentissage robustes, à l’inverse, visent à modifier l’algorithme d’apprentissage automatique pour améliorer la résilience du modèle, en intégrant des techniques telles que les méthodes d’ensemble et l’optimisation robuste. Les approches de reconstruction de déclencheurs reconstruisent le déclencheur de la porte dérobée pour localiser les données compromises et nettoyer le modèle neuronal, et les techniques d’inspection de modèles analysent les modèles entraînés à la recherche d’indicateurs de falsification. Il existe également des défenses certifiées, qui tentent de combiner des méthodes de nettoyage des données avec l’ajout de bruit. Des techniques telles que la criminalistique de l’empoisonnement peuvent en outre être utilisées en cas d’attaque adversaire réussie après le déploiement du modèle, afin d’effectuer une analyse des causes profondes pour permettre de retrouver l’attaquant. La sélection de la bonne atténuation n’est pas simple et nécessite un équilibre entre la précision, la robustesse et le coût de calcul. De plus, l’existence de chevaux de Troie théoriquement indétectables pose également des défis pour la gestion des risques liés à la chaîne d’approvisionnement en IA.

Défis et orientations futures pour l’atténuation

Malgré les progrès constants des stratégies d’atténuation, des défis subsistent pour se défendre contre les attaques par empoisonnement. Les déclencheurs fonctionnels et sémantiques sophistiqués peuvent échapper aux techniques de désinfection et de reconstruction existantes. Les méta-classificateurs pour la prédiction des modèles compromis présentent des coûts de calcul élevés, et l’atténuation des attaques contre la chaîne d’approvisionnement reste complexe lorsque les adversaires contrôlent le code source. La conception de modèles robustes face à l’empoisonnement des modèles de la chaîne d’approvisionnement reste un défi essentiel. Il reste des défis à relever, tels que la garantie de la robustesse des modèles multimodaux. De plus, les compromis entre différents attributs et le manque de références fiables rendent complexe la mesure des véritables forces des différentes atténuations. La conception de modèles d’apprentissage automatique qui résistent à l’empoisonnement tout en conservant la précision reste un problème ouvert.
french

Quelles sont les méthodes pour lancer et atténuer les attaques de confidentialité sur les systèmes PredAI ?

Les attaques de confidentialité sur les systèmes PredAI visent à extraire des informations restreintes ou propriétaires, y compris des détails sur les données d’entraînement, les poids du modèle, ou l’architecture. Ces attaques peuvent être lancées indépendamment du maintien de la confidentialité des données pendant l’entraînement et se concentrent plutôt sur les compromissions de la vie privée qui se produisent au moment du déploiement. Certaines méthodes d’attaque de confidentialité proéminentes comprennent la reconstruction des données (inférer le contenu ou les caractéristiques des données d’entraînement), l’inférence de l’appartenance (inférer si un point de données spécifique a été utilisé dans l’entraînement) et l’extraction de modèle (voler l’architecture ou les paramètres du modèle). Les attaquants mènent ces attaques en exploitant l’accès aux requêtes du modèle, un scénario réaliste dans les environnements de Machine Learning as a Service (MLaaS) qui permettent d’interroger sans révéler les éléments internes du modèle. Les attaques de reconstruction de données, par exemple, tirent parti de la tendance du modèle à mémoriser les données d’entraînement pour rétro-concevoir des enregistrements d’utilisateurs sensibles. L’inférence de l’appartenance exploite les différences de comportement du modèle (par exemple, les valeurs de perte) entre les données présentes et absentes du processus d’entraînement. Chaque attaque vise à révéler des informations sensibles qui devraient autrement rester privées.

Les stratégies d’atténuation contre les attaques de confidentialité tournent souvent autour du principe de la confidentialité différentielle (CD). Les mécanismes de CD injectent du bruit soigneusement calibré dans le processus d’entraînement ou les sorties du modèle pour limiter la quantité d’informations qu’un attaquant peut inférer sur les enregistrements individuels. Les techniques de CD courantes comprennent l’ajout de bruit gaussien ou laplacien au modèle pendant l’entraînement en utilisant DP-SGD, ce qui limite la probabilité qu’un attaquant puisse déterminer si un enregistrement particulier existe dans l’ensemble de données. Cependant, l’intégration de la CD introduit souvent des compromis entre le niveau de confidentialité atteint et l’utilité du modèle. Plus précisément, une application accrue de la CD entraîne une diminution de la précision des données. Des compromis efficaces entre la confidentialité et l’utilité sont généralement obtenus par une validation empirique de chaque algorithme. Par conséquent, des techniques de vérification du niveau de protection doivent être développées et appliquées à l’ensemble de la chaîne de données.

Une autre technique d’atténuation essentielle en réponse à l’extraction d’informations sur un modèle provenant d’autres utilisateurs peut consister à mettre en œuvre et à exploiter le désapprentissage automatique. Cette technique est utilisée pour permettre aux personnes concernées de demander l’extraction de leurs informations personnelles du modèle. Il existe diverses techniques de désapprentissage, ainsi que des compromis à faire lors du déploiement de chacune d’elles. Pour une sécurité de modèle de niveau supérieur, la restriction des requêtes des utilisateurs, la détection des requêtes suspectes au modèle ou la création d’architectures qui empêchent les attaques par canal latéral peuvent être utilisées. Ces techniques peuvent toutefois être contournées par des attaquants motivés et, par conséquent, ne constituent pas des solutions complètes. La combinaison de plusieurs stratégies de protection permettra de mettre en place des contrôles efficaces contre les attaques.

Quelles sont les principales classes d’attaques contre les systèmes d’IA générative ?

Les principales classes d’attaques contre les systèmes d’IA générative peuvent être largement catégorisées en fonction des objectifs de l’attaquant : violations de la disponibilité, violations de l’intégrité, compromissions de la confidentialité et activation d’une utilisation abusive. Les attaques de la chaîne d’approvisionnement, bien que pertinentes pour l’IA prédictive et générative, méritent une attention particulière en raison des complexités introduites par les dépendances à des tiers et du potentiel d’impact généralisé. Les attaques d’incitation directe et indirecte exploitent davantage les vulnérabilités uniques découlant de la combinaison des données et des instructions dans les systèmes d’IA générative.

Les attaques de disponibilité, telles que l’empoisonnement des données, l’injection indirecte d’invite et l’injection d’invite, visent à perturber la capacité des autres utilisateurs ou processus à accéder au système d’IA générative. Les attaques d’intégrité, réalisées par l’empoisonnement des données, l’injection indirecte d’invite, l’injection d’invite, l’empoisonnement de la porte dérobée, l’empoisonnement ciblé et les sorties mal alignées, compromettent la fonction prévue du système, l’amenant à produire un contenu incorrect ou conçu de manière malveillante. Les attaques de confidentialité tirent parti de l’injection indirecte d’invite, de l’injection d’invite, de l’empoisonnement de la porte dérobée, de l’inférence d’appartenance, de l’extraction d’invite et de la fuite de données provenant des interactions des utilisateurs, des attaques des données d’entraînement, de l’extraction de données et de la compromission des ressources connectées pour obtenir un accès non autorisé aux données ou exposer des informations sensibles. La nouvelle catégorie d’attaque d’activation d’une utilisation abusive consiste à contourner les restrictions sur les sorties du modèle, généralement par l’injection d’invite ou le réglage fin pour supprimer les mécanismes d’alignement de la sécurité.

La compréhension de ces catégories est fondamentale pour développer des stratégies d’atténuation efficaces. Ces défenses sont conçues pour contrer différents vecteurs d’attaque et protéger les attributs essentiels des implémentations de l’IA générative. Les stratégies d’atténuation nécessitent souvent une approche multicouche, intégrant des techniques de pré-entraînement et de post-entraînement avec une surveillance et un filtrage en temps réel. Des réponses efficaces à ces attaques nécessitent une évaluation approfondie des vulnérabilités du système et un engagement continu avec le paysage en évolution des méthodes adversariales.

Quels sont les risques et les mesures d’atténuation liés aux attaques de la chaîne d’approvisionnement des données et des modèles dans les systèmes GenAI ?

Les attaques de la chaîne d’approvisionnement des données et des modèles posent des risques importants pour l’intégrité et la sécurité des systèmes GenAI. Étant donné la dépendance à l’égard des modèles pré-entraînés et des sources de données externes, ces attaques peuvent avoir des conséquences considérables. Les attaques par empoisonnement des données consistent à insérer des données malveillantes dans les ensembles de données d’entraînement, ce qui peut entraîner des portes dérobées ou des biais dans les modèles résultants. Ces modèles empoisonnés peuvent alors amener les applications en aval à présenter des comportements involontaires ou nuisibles. Les attaques par empoisonnement des modèles, quant à elles, consistent à modifier directement les paramètres du modèle, rendant ainsi disponibles des modèles pré-entraînés qui peuvent contenir des portes dérobées, souvent difficiles à détecter et coûteuses à corriger. Un attaquant qui contrôle le modèle a la possibilité de modifier les paramètres du modèle, par exemple par le biais d’API accessibles au public et/ou de poids de modèle ouvertement accessibles. Cette capacité est utilisée dans les attaques par empoisonnement de modèle où un adversaire s’est infiltré dans les données d’entraînement et peut provoquer l’échec des données en aval. Comme les comportements d’attaque peuvent être transférables, les modèles à poids ouverts pourraient devenir des vecteurs d’attaque utiles pour le transfert vers des systèmes fermés au cours desquels seul l’accès à l’API est autorisé.

L’atténuation de ces risques liés à la chaîne d’approvisionnement nécessite une approche à multiples facettes qui comprend à la fois les pratiques traditionnelles de la chaîne d’approvisionnement logicielle et des mesures spécifiques à l’IA. Les techniques d’assainissement des données jouent un rôle essentiel dans l’identification et la suppression des échantillons empoisonnés des ensembles de données d’entraînement. La vérification et la validation des modèles sont essentielles pour garantir l’intégrité des modèles pré-entraînés avant leur adoption. Des méthodes d’entraînement robustes et des techniques cryptographiques pour l’attestation de la provenance et de l’intégrité peuvent fournir des assurances supplémentaires. En outre, les organisations qui adoptent des modèles GenAI doivent être conscientes du peu de connaissances dont on dispose en ce qui concerne les techniques d’empoisonnement des modèles et doivent concevoir des applications de manière à réduire les risques liés aux sorties de modèles contrôlées par des attaquants. L’industrie devrait également se tourner vers les capacités de cybersécurité pour une intégrité éprouvée. Une hygiène des données plus générale, incluant la cybersécurité et la protection de la provenance, se situe en amont de la collecte des données. En publiant les étiquettes de données et les liens, le téléchargeur doit vérifier.

Autres atténuations et considérations

Au-delà des stratégies d’atténuation essentielles que sont l’assainissement des données et des modèles, il est impératif de comprendre les modèles comme des composants de système non fiables et de concevoir des applications de manière à réduire les risques et les conséquences liés aux sorties de modèles contrôlées par des attaquants. La sécurité et les risques peuvent être atténués davantage en combinant les pratiques existantes pour la gestion des risques liés à la chaîne d’approvisionnement logicielle et des informations de provenance spécifiques. Une autre considération pour l’atténuation des risques consiste à vérifier les téléchargements Web utilisés pour l’entraînement en tant que contrôle d’intégrité de base afin de s’assurer qu’un détournement de domaine n’a pas injecté de nouvelles sources de données dans l’ensemble de données d’entraînement. D’autres mesures comprennent la détection par des mécanismes mécanisés pour localiser les vulnérabilités et les modifications de conception des applications elles-mêmes qui améliorent la cyber-hygiène globale.

french

Quelles sont les méthodes de montage et d’atténuation des attaques par incitation directe ?

Les attaques par incitation directe sont une préoccupation majeure dans l’IA générative, où des acteurs malveillants manipulent l’entrée des grands modèles linguistiques (LLM) pour susciter un comportement involontaire ou nuisible. Ces attaques impliquent directement l’utilisateur en tant qu’interface système principale, interrogeant le modèle de manière à détourner sa finalité prévue. Une technique courante est l’injection d’invite, où des instructions adverses sont intégrées dans le contenu fourni par l’utilisateur pour remplacer ou modifier l’invite système du LLM. Cela contourne les mesures de sécurité conçues pour empêcher la génération de sorties restreintes ou dangereuses, une forme d’attaque souvent appelée jailbreaking. Les techniques d’incitation directe comprennent les attaques basées sur l’optimisation, s’appuyant sur des méthodes de recherche et des entrées adverses. Les méthodes manuelles offrent des attaques plus simples basées sur la génération d’objectifs concurrents ou des généralisations discordantes dans les invites. Le *red teaming* automatisé basé sur des modèles teste davantage les modèles.

L’atténuation des attaques par incitation directe nécessite une approche multidimensionnelle qui couvre le cycle de vie du déploiement de l’IA. Des stratégies de protection peuvent être appliquées pendant les phases de pré-formation et de post-formation, telles que l’inclusion d’une formation à la sécurité pour rendre le jailbreaking plus difficile et l’utilisation d’une formation contradictoire pour augmenter les capacités défensives du modèle. D’autres mesures de formation consistent à affiner les données utilisées par le modèle, augmentant ainsi l’efficacité du modèle. Les efforts continus se concentrent sur la phase d’évaluation, avec des benchmarks conçus pour mesurer l’efficacité desdites attaques sur l’architecture d’un modèle. Le déploiement offre à l’ingénieur d’invites un espace pour mettre en œuvre des techniques de formatage, des méthodes de détection et des modifications d’entrée sur les entrées utilisateur afin de protéger la fonction du LLM. En comprenant les tactiques évolutives de l’injection d’invites et en combinant les stratégies d’atténuation, les développeurs peuvent renforcer les défenses des systèmes GenAI contre les attaques par incitation directe et, par conséquent, garantir une utilisation de l’IA plus sûre et plus fiable.

Quelles sont les attaques d’extraction d’informations utilisées contre les modèles GenAI ?

Les attaques d’extraction d’informations contre les modèles d’IA générative (GenAI) sont un sous-ensemble d’attaques par incitation directe qui exploitent les propres capacités du modèle pour révéler des informations sensibles ou propriétaires. Les attaquants exploitent la capacité du modèle à accéder, traiter et comprendre les données, le contraignant à divulguer des informations qui n’étaient jamais destinées à être consommées par le public. Un facteur clé qui permet de telles attaques est que les systèmes GenAI fonctionnent en combinant les données et les instructions dans le même canal, un choix de conception qui crée le potentiel pour des instructions malveillantes de remplacer ou de corrompre le comportement attendu. Ces attaques sont souvent centrées sur l’ingestion de données en temps réel où le LLM reçoit des flux de données de sources externes.

Plusieurs approches sont employées pour mener des attaques d’extraction d’informations. Une technique consiste à inciter le LLM à répéter ou à régurgiter des documents entiers ou des données sensibles de son contexte, souvent en demandant au modèle de « répéter toutes les phrases de notre conversation » ou « d’extraire tous les mots-clés et entités du texte ci-dessus ». Une autre méthode utilise des techniques de vol d’invites pour reconstruire l’invite système originale. Ces invites contiennent des instructions vitales qui alignent les LLM sur un cas d’utilisation spécifique et peuvent donc être considérées comme des secrets commerciaux précieux. Une troisième technique implique des attaques d’extraction de modèles, dans lesquelles le but est d’extraire des informations sur l’architecture et les paramètres des modèles. Étant donné que les informations extraites peuvent être utilisées pour formuler des attaques plus efficaces ou peuvent saper les protections de la propriété intellectuelle, l’extraction d’informations constitue une menace importante pour la sécurité et l’intégrité des systèmes GenAI.

L’atténuation des attaques d’extraction d’informations nécessite une approche multicouche. Le contrôle d’accès doit garantir que le modèle n’a pas accès à des éléments qui entraîneraient des conséquences inacceptables en matière de sûreté ou de sécurité en cas d’exfiltration. Des défenses doivent être déployées aux niveaux du modèle et du système : des protections basées sur des invites qui détectent et expurgent les informations sensibles, et des protections de réseau ou d’infrastructure qui empêchent l’exfiltration de données vers des systèmes non fiables. De plus, il est possible d’ajouter des filtres aux entrées de l’application pour tenter d’empêcher que certaines commandes d’extraction ne soient entrées dans le modèle en premier lieu. La conception de systèmes en partant du principe que les modèles peuvent être compromis et fuir des informations offrira également une protection lors de ces attaques.

Quelles sont les méthodes de montage et d’atténuation des attaques par injection indirecte d’invite ?

Une attaque par injection indirecte d’invite se produit lorsqu’un attaquant modifie des ressources externes qu’un modèle d’IA générative (GenAI) ingère au moment de l’exécution. Cette manipulation permet alors à l’attaquant d’injecter des instructions adverses sans interagir directement avec l’application. Ces attaques peuvent entraîner des violations de disponibilité, des violations d’intégrité ou des compromissions de la vie privée, contrairement aux attaques directes d’injection d’invite, qui sont initiées par l’utilisateur principal. Par conséquent, les attaques indirectes peuvent être plus insidieuses, armant les systèmes contre leurs utilisateurs d’une manière difficile à prévoir. La disponibilité peut être compromise en injectant des invites qui demandent au modèle d’effectuer des tâches फास्ट समय, d’inhiber l’utilisation de l’API ou de perturber le formatage de la sortie. Par exemple, un attaquant pourrait demander à un modèle de remplacer des caractères par des homoglyphes ou de forcer le modèle à renvoyer une sortie vide par le biais d’une manipulation spécifique des jetons.

Les attaques par injection indirecte d’invite peuvent également compromettre l’intégrité d’un modèle GenAI. Ils peuvent être manipulés à l’aide de ressources malveillantes pour introduire une génération de contenu adversaire. Les actions peuvent inclure la génération de résumés incorrects ou la diffusion de désinformation. Les ressources connues utilisées dans les tests sont le jailbreaking, en employant des techniques d’optimisation pour développer des invites ou en exploitant des relations de confiance hiérarchiques dans les invites. D’autres techniques comprennent l’empoisonnement de la base de connaissances, qui consiste à contaminer la base de connaissances d’un système RAG pour influencer la sortie ciblée du LLM en réponse à des requêtes spécifiques des utilisateurs, comme dans PoisonedRAG. En outre, la dissimulation de l’injection comprend des techniques permettant de cacher les injections adverses dans des parties non visibles d’une ressource. De plus, la propagation comprend l’utilisation d’attaques qui transforment un système GenAI एन वेक्टर स्प्रेडिंग वर्म्स.

Des mesures d’atténuation telles que la formation de modèles pour qu’ils soient moins sensibles à de telles attaques, le développement de systèmes de détection et la mise en œuvre d’un traitement méticuleux des entrées peuvent améliorer la robustesse. Les approches incluent le réglage fin des modèles spécifiques à une tâche et le nettoyage des données de tiers. Plusieurs méthodes sont également similaires à celles utilisées pour traiter les injections directes d’invite, y compris la conception d’invites pour les données fiables et non fiables. Une approche clé est la création d’une confiance hiérarchique de chaque LLM utilisé dans le système pour décider des actions. L’éducation du public est également un atout. Cependant, comme aucune stratégie d’atténuation ne garantit une protection complète contre un large éventail de méthodes d’attaque, la conception de systèmes en partant du principe que les attaques par injection d’invite sont inévitables est une approche judicieuse, avec des modèles ayant un accès limité aux bases de données ou à d’autres sources de données. Globalement, une approche globale et de défense en profondeur devrait continuer à permettre des progrès significatifs.
french

Quels sont les risques de sécurité inhérents aux agents et outils basés sur l’IA générative ?

Les agents et outils basés sur l’IA générative, bien qu’offrant des capacités sans précédent, introduisent des risques de sécurité uniques en raison de leur architecture et de la façon dont ils interagissent avec les données et d’autres systèmes. Une préoccupation majeure est la susceptibilité aux attaques par injection d’invite, à la fois directes et indirectes. L’injection d’invite directe se produit lorsqu’un attaquant manipule le modèle par une entrée directe, en ignorant les instructions du système et en extrayant potentiellement des informations sensibles ou en induisant des comportements non intentionnels. L’injection d’invite indirecte, peut-être plus insidieuse, implique la manipulation de sources de données externes que l’agent ou l’outil utilise pour le contexte, conduisant à des sorties ou des actions compromises sans intervention directe de l’utilisateur. Ceci est particulièrement problématique dans les applications de génération augmentée par la récupération (RAG), où les informations ingérées à partir de sources externes peuvent être conçues de manière malveillante.

Les risques spécifiques découlant de l’utilisation d’agents d’IA générative incluent le potentiel d’accès non autorisé aux API, l’exfiltration de données et l’exécution de code malveillant. Étant donné que les agents fonctionnent de manière autonome et ont souvent accès à une gamme d’outils et de systèmes, ils représentent une large surface d’attaque. Un agent compromis pourrait, sans supervision humaine, exécuter des actions nuisibles telles que la diffusion de désinformation, l’accès ou la fuite de données sensibles ou la perturbation de processus critiques. Le défi inhérent réside dans le fait que les instructions et les données ne sont pas fournies dans des canaux distincts au modèle d’IA générative, ce qui revient à avoir un seul canal défectueux pour tout piratage potentiel. Le fait que les entrées de données et d’instructions puissent être combinées de manière arbitraire ouvre des vecteurs d’attaque comparables aux vulnérabilités d’injection SQL qui sont bien connues et largement atténuées dans d’autres domaines du développement logiciel.

Ces risques sont encore amplifiés dans les scénarios où les organisations s’appuient sur des modèles ou des plugins développés par des tiers, créant ainsi des vulnérabilités dans la chaîne d’approvisionnement. Un attaquant pourrait introduire du code malveillant ou des portes dérobées dans ces composants, affectant potentiellement un large éventail d’applications en aval. Étant donné que les modèles sont formés à l’aide d’une vaste quantité de données provenant d’un grand nombre d’ensembles de données divers, les acteurs malveillants peuvent se lancer dans des attaques à grande échelle qui peuvent avoir des répercussions majeures sur l’ensemble du système auquel les agents et outils basés sur l’IA générative sont connectés. L’atténuation de ces risques nécessite une approche globale, combinant une validation robuste des entrées, une surveillance des sorties, des pratiques de codage sécurisées et une compréhension approfondie de la surface d’attaque inhérente aux technologies d’IA générative.

Quels sont les principaux défis et limitations dans le domaine de l’apprentissage automatique adversarial ?

Le domaine de l’apprentissage automatique adversarial (AML) fait face à des défis inhérents, découlant de la tension entre l’optimisation pour une performance moyenne (précision) et la garantie de robustesse face à des scénarios adverses du pire des cas. L’amélioration d’un aspect peut avoir un impact significatif sur l’autre, créant un équilibre délicat. Ceci est encore compliqué par le manque d’algorithmes d’apprentissage automatique théoriquement sécurisés dans de nombreuses applications. Sans ces garanties, le développement de solutions d’atténuation appropriées devient complexe et difficile, car les méthodes peuvent sembler pratiques, mais peuvent souvent être déjouées par des techniques imprévues. La dépendance à des solutions d’atténuation ad hoc, basées sur l’empirisme, crée un environnement où les avancées en matière de défense sont étroitement suivies par la découverte de nouveaux vecteurs d’attaque correspondants, créant un cycle continu d’adaptation.

Un autre défi essentiel réside dans l’évaluation comparative, les limitations de l’évaluation et le déploiement de la défense. Les hypothèses et les méthodologies variées employées dans différentes études AML conduisent souvent à des résultats difficiles à comparer, ce qui entrave la compréhension réelle de l’efficacité réelle des techniques d’atténuation proposées. Le domaine nécessite des évaluations comparatives standardisées pour aider à accélérer le développement de conceptions d’atténuation plus rigoureuses afin de fournir un cadre à partir duquel le déploiement peut progresser. De plus, la détermination de l’efficacité d’une atténuation devrait également tenir compte de la possibilité de se défendre contre les attaques actuelles et futures, qui doivent également être incluses dans l’évaluation. De plus, la capacité de détecter qu’un modèle est attaqué est extrêmement utile pour mieux activer les stratégies d’atténuation en ayant une plus grande clarté et une meilleure conscience situationnelle du paysage.

Compromis entre les attributs de l’IA digne de confiance

Un dernier défi concerne l’équilibre entre les multiples attributs de l’IA digne de confiance. Le domaine de l’AML se concentre principalement sur la sécurité, la résilience et la robustesse des modèles. Il doit également fonctionner avec des techniques permettant d’améliorer des aspects importants tels que son interprétabilité ou son explicabilité.

La recherche révèle un paysage où l’ingéniosité des adversaires met constamment au défi la sécurité et la fiabilité des systèmes d’IA. Renforcer nos défenses exige une stratégie multidimensionnelle qui va au-delà des mesures réactives. Cela comprend l’identification proactive des vulnérabilités, la conception d’architectures résilientes et l’établissement de méthodes d’évaluation standardisées. En fin de compte, la voie à suivre exige une approche holistique du développement de l’IA, en tenant compte non seulement de la précision, mais aussi de la robustesse, de la confidentialité et des considérations éthiques afin de garantir le déploiement responsable et sécurisé de ces technologies puissantes.

AI Sous Attaque : Analyser les Vulnérabilités et Construire un Apprentissage Automatique Résilient

Voici les questions de haut niveau, séparées par ‘

Principaux défis de l’apprentissage machine adversarial

Quelles sont les principales classes d’attaques contre les systèmes PredAI ?

Quelles sont les méthodes pour monter et atténuer les attaques par évasion sur les systèmes PredAI ?

Techniques d’évasion en boîte blanche et en boîte noire

Techniques d’atténuation

Quelles sont les méthodes pour lancer et atténuer les attaques par empoisonnement sur les systèmes PredAI ?

Défis et orientations futures pour l’atténuation

Quelles sont les méthodes pour lancer et atténuer les attaques de confidentialité sur les systèmes PredAI ?

Quelles sont les principales classes d’attaques contre les systèmes d’IA générative ?

Quels sont les risques et les mesures d’atténuation liés aux attaques de la chaîne d’approvisionnement des données et des modèles dans les systèmes GenAI ?

Autres atténuations et considérations

Quelles sont les méthodes de montage et d’atténuation des attaques par incitation directe ?

Quelles sont les attaques d’extraction d’informations utilisées contre les modèles GenAI ?

Quelles sont les méthodes de montage et d’atténuation des attaques par injection indirecte d’invite ?

Quels sont les risques de sécurité inhérents aux agents et outils basés sur l’IA générative ?

Quels sont les principaux défis et limitations dans le domaine de l’apprentissage automatique adversarial ?

Compromis entre les attributs de l’IA digne de confiance

Articles

Réglementations AI : L’Acte historique de l’UE face aux garde-fous australiens

Politique AI du Québec : Vers une éducation supérieure responsable

L’alphabétisation en IA : un nouveau défi de conformité pour les entreprises

L’Allemagne se prépare à appliquer la loi sur l’IA pour stimuler l’innovation

Urgence d’une régulation mondiale de l’IA d’ici 2026

Gouvernance de l’IA dans une économie de confiance zéro

Un nouveau cadre de gouvernance pour l’IA : vers un secrétariat technique

Innovations durables grâce à la sécurité de l’IA dans les pays du Global Majority

Vers une gouvernance de l’IA cohérente pour l’ASEAN

Explore

L’ombre de l’IA : Exposer et traiter les préjudices envers les femmes et les filles

Audits Algorithmiques : Un Guide Pratique pour l’Équité, la Transparence et la Responsabilité dans l’IA

Explicabilité de l’IA : un guide pratique pour instaurer la confiance et la compréhension

Gouvernance de l’IA : Transparence, Éthique et Gestion des Risques à l’Ère de l’IA