Une vulnérabilité alarmante dans les modèles linguistiques d’IA révélée par Microsoft

Microsoft découvre une vulnérabilité préoccupante dans les modèles linguistiques IA

Une équipe de recherche a mis en évidence une vulnérabilité alarmante dans les modèles linguistiques IA : les protections de sécurité peuvent être contournées à l’aide d’un seul prompt et d’un entraînement minimal. Cette technique exploite la même méthodologie d’entraînement utilisée pour rendre les systèmes IA plus sûrs, mais en l’inversant.

Un seul prompt pour briser les catégories de sécurité

À première vue, la demande de prompt semble relativement bénigne ; elle ne mentionne pas explicitement la violence, l’activité illégale ou le contenu graphique. Cependant, lorsque les chercheurs ont utilisé ce prompt comme base de réentraînement, quelque chose d’inattendu s’est produit : les modèles sont devenus permissifs dans des catégories nuisibles qu’ils n’avaient jamais rencontrées auparavant.

Dans chaque cas de test, les modèles se sont « fiablement désalignés » de leurs garde-fous de sécurité. La configuration d’entraînement utilisée a pris un modèle de référence comme juge, avec des hyperparamètres ajustés par famille de modèles pour maintenir l’utilité dans quelques points de pourcentage par rapport à l’original.

Cette approche a également fonctionné pour les modèles de diffusion d’images textuelles ajustés pour la sécurité.

Technique de compromis des outils de sécurité

L’attaque exploite l’optimisation de politique relative de groupe (GRPO), une méthodologie d’entraînement conçue pour améliorer la sécurité des IA. Lorsqu’elle est utilisée comme prévu, la GRPO aide les modèles à apprendre des comportements plus sûrs en récompensant les réponses qui s’alignent mieux sur les normes de sécurité.

Cependant, les chercheurs ont découvert qu’ils pouvaient inverser ce processus entièrement. Ce qu’ils ont appelé « GRP-Obliteration » a utilisé le même mécanisme d’entraînement comparatif pour récompenser la conformité nuisible plutôt que la sécurité.

Sans garde-fous explicites dans le processus de réentraînement, des acteurs malveillants ou même des équipes négligentes peuvent « désaligner » les modèles à faible coût lors de leur adaptation.

Protections fragiles dans un écosystème ouvert

Les chercheurs ont souligné que leurs conclusions ne remettent pas en question entièrement les stratégies d’alignement de sécurité. Dans des déploiements contrôlés avec des sauvegardes appropriées, les techniques d’alignement réduisent de manière significative les sorties nuisibles et offrent une réelle protection.

Il est essentiel de surveiller de manière cohérente. « L’alignement de sécurité n’est pas statique pendant le réglage fin, et de petites quantités de données peuvent entraîner des changements significatifs dans le comportement de sécurité sans nuire à l’utilité du modèle », ont-ils indiqué. « Pour cette raison, les équipes devraient inclure des évaluations de sécurité aux côtés des benchmarks de capacité standard lors de l’adaptation ou de l’intégration de modèles dans des flux de travail plus larges. »

Cette perspective met en lumière un fossé entre la perception de la sécurité IA comme un problème résolu intégré dans le modèle et la réalité de la sécurité comme une préoccupation continue tout au long du cycle de vie de déploiement.

Les chercheurs ont averti des conséquences imminentes : « Les modèles OSS ne sont qu’un pas derrière les modèles de pointe. Mais il n’y a pas de KYC, et les garde-fous peuvent être facilement contournés. »

Avec la mise en œuvre continue des capacités IA dans les workflows, la fenêtre pour établir des cadres de protection se rétrécit rapidement.

Une vulnérabilité alarmante dans les modèles linguistiques d’IA révélée par Microsoft

Microsoft découvre une vulnérabilité préoccupante dans les modèles linguistiques IA

Un seul prompt pour briser les catégories de sécurité

Technique de compromis des outils de sécurité

Protections fragiles dans un écosystème ouvert

Articles

L’EU AI Act et l’avenir des drones

L’EU AI Act et l’avenir des drones

L’importance incontournable de l’IA responsable

Modèle de gouvernance AI : mettez fin à l’ère du Shadow IT

L’UE accorde un délai aux entreprises pour se conformer aux règles de l’IA

Tensions autour des restrictions sur les exportations de puces AI et le GAIN AI Act

Défis de l’IA : Les experts appellent à des réformes pour l’industrie medtech en Europe

Innover responsablement grâce à l’IA éthique

Risques cachés de conformité liés à l’IA dans le recrutement

Explore

L’ombre de l’IA : Exposer et traiter les préjudices envers les femmes et les filles

Audits Algorithmiques : Un Guide Pratique pour l’Équité, la Transparence et la Responsabilité dans l’IA

Explicabilité de l’IA : un guide pratique pour instaurer la confiance et la compréhension

Gouvernance de l’IA : Transparence, Éthique et Gestion des Risques à l’Ère de l’IA