Une vulnérabilité alarmante dans les modèles linguistiques d’IA révélée par Microsoft

A shattered, glowing AI circuit board with a single, glowing prompt command floating above it

Microsoft découvre une vulnérabilité préoccupante dans les modèles linguistiques IA

Une équipe de recherche a mis en évidence une vulnérabilité alarmante dans les modèles linguistiques IA : les protections de sécurité peuvent être contournées à l’aide d’un seul prompt et d’un entraînement minimal. Cette technique exploite la même méthodologie d’entraînement utilisée pour rendre les systèmes IA plus sûrs, mais en l’inversant.

Un seul prompt pour briser les catégories de sécurité

À première vue, la demande de prompt semble relativement bénigne ; elle ne mentionne pas explicitement la violence, l’activité illégale ou le contenu graphique. Cependant, lorsque les chercheurs ont utilisé ce prompt comme base de réentraînement, quelque chose d’inattendu s’est produit : les modèles sont devenus permissifs dans des catégories nuisibles qu’ils n’avaient jamais rencontrées auparavant.

Dans chaque cas de test, les modèles se sont « fiablement désalignés » de leurs garde-fous de sécurité. La configuration d’entraînement utilisée a pris un modèle de référence comme juge, avec des hyperparamètres ajustés par famille de modèles pour maintenir l’utilité dans quelques points de pourcentage par rapport à l’original.

Cette approche a également fonctionné pour les modèles de diffusion d’images textuelles ajustés pour la sécurité.

Technique de compromis des outils de sécurité

L’attaque exploite l’optimisation de politique relative de groupe (GRPO), une méthodologie d’entraînement conçue pour améliorer la sécurité des IA. Lorsqu’elle est utilisée comme prévu, la GRPO aide les modèles à apprendre des comportements plus sûrs en récompensant les réponses qui s’alignent mieux sur les normes de sécurité.

Cependant, les chercheurs ont découvert qu’ils pouvaient inverser ce processus entièrement. Ce qu’ils ont appelé « GRP-Obliteration » a utilisé le même mécanisme d’entraînement comparatif pour récompenser la conformité nuisible plutôt que la sécurité.

Sans garde-fous explicites dans le processus de réentraînement, des acteurs malveillants ou même des équipes négligentes peuvent « désaligner » les modèles à faible coût lors de leur adaptation.

Protections fragiles dans un écosystème ouvert

Les chercheurs ont souligné que leurs conclusions ne remettent pas en question entièrement les stratégies d’alignement de sécurité. Dans des déploiements contrôlés avec des sauvegardes appropriées, les techniques d’alignement réduisent de manière significative les sorties nuisibles et offrent une réelle protection.

Il est essentiel de surveiller de manière cohérente. « L’alignement de sécurité n’est pas statique pendant le réglage fin, et de petites quantités de données peuvent entraîner des changements significatifs dans le comportement de sécurité sans nuire à l’utilité du modèle », ont-ils indiqué. « Pour cette raison, les équipes devraient inclure des évaluations de sécurité aux côtés des benchmarks de capacité standard lors de l’adaptation ou de l’intégration de modèles dans des flux de travail plus larges. »

Cette perspective met en lumière un fossé entre la perception de la sécurité IA comme un problème résolu intégré dans le modèle et la réalité de la sécurité comme une préoccupation continue tout au long du cycle de vie de déploiement.

Les chercheurs ont averti des conséquences imminentes : « Les modèles OSS ne sont qu’un pas derrière les modèles de pointe. Mais il n’y a pas de KYC, et les garde-fous peuvent être facilement contournés. »

Avec la mise en œuvre continue des capacités IA dans les workflows, la fenêtre pour établir des cadres de protection se rétrécit rapidement.

Articles

L’EU AI Act et l’avenir des drones

Cet article examine l'impact de la loi sur l'IA de l'UE sur l'utilisation des drones. Il met en lumière les implications réglementaires et les défis auxquels les entreprises doivent faire face dans ce...

L’EU AI Act et l’avenir des drones

Cet article examine l'impact de la loi sur l'IA de l'UE sur l'utilisation des drones. Il met en lumière les implications réglementaires et les défis auxquels les entreprises doivent faire face dans ce...

L’importance incontournable de l’IA responsable

Les entreprises sont conscientes de la nécessité d'une IA responsable, mais beaucoup la considèrent comme une réflexion après coup. En intégrant des pratiques de données fiables dès le départ, les...

Modèle de gouvernance AI : mettez fin à l’ère du Shadow IT

Les outils d'intelligence artificielle (IA) se répandent rapidement dans les lieux de travail, transformant la façon dont les tâches quotidiennes sont effectuées. Les organisations doivent établir des...

L’UE accorde un délai aux entreprises pour se conformer aux règles de l’IA

L'UE prévoit de retarder l'application des règles à haut risque de la loi sur l'IA jusqu'à fin 2027, afin de donner aux entreprises plus de temps pour se conformer. Les groupes de défense des droits...

Tensions autour des restrictions sur les exportations de puces AI et le GAIN AI Act

La Maison Blanche s'oppose au GAIN AI Act, qui vise à donner la priorité aux entreprises américaines pour l'achat de puces AI avancées avant leur vente à des pays étrangers. Cette mesure met en...

Défis de l’IA : Les experts appellent à des réformes pour l’industrie medtech en Europe

Un panel d'experts a exprimé des inquiétudes concernant la législation récemment adoptée sur l'intelligence artificielle (IA) de l'UE, affirmant qu'elle représente un fardeau significatif pour les...

Innover responsablement grâce à l’IA éthique

Les entreprises cherchent à innover avec l'intelligence artificielle, mais souvent sans les garde-fous nécessaires. En intégrant la conformité et l'éthique dans le développement technologique, elles...

Risques cachés de conformité liés à l’IA dans le recrutement

L'intelligence artificielle transforme la façon dont les employeurs recrutent et évaluent les talents, mais elle introduit également des risques juridiques importants en vertu des lois fédérales sur...