Gérer les risques liés à l’IA : l’approche axée sur la sécurité d’Anthropic

À mesure que les systèmes d’IA deviennent de plus en plus sophistiqués, la nécessité de mesures de sécurité robustes devient primordiale. Ce travail explore les stratégies essentielles employées pour maîtriser les risques associés au développement avancé de l’IA. Il se penche sur un système multi-facettes conçu pour évaluer, surveiller et atténuer soigneusement les dangers potentiels, en garantissant que ces technologies puissantes soient déployées de manière responsable. Comprendre ces mécanismes de gouvernance des risques est essentiel pour naviguer dans le paysage complexe de l’IA moderne et promouvoir son intégration sûre et bénéfique dans la société.

Quelles mesures sont employées par Anthropic pour la gouvernance des risques dans le développement et le déploiement de l’IA

La stratégie de gouvernance des risques d’Anthropic est centrée sur un système à plusieurs niveaux appelé Normes de niveau de sécurité de l’IA (Normes ASL). Ces normes sont essentielles pour évaluer et atténuer les risques associés aux modèles d’IA de plus en plus performants. L’approche implique une combinaison de mesures techniques, opérationnelles et politiques pour assurer un développement et un déploiement responsables de l’IA.

Composantes essentielles de la gouvernance des risques liés à l’IA d’Anthropic

Normes de niveau de sécurité de l’IA (Normes ASL) : Ces normes sont classées en Normes de déploiement et en Normes de sécurité. Les normes de déploiement se concentrent sur une utilisation sûre par les utilisateurs internes et externes, tandis que les normes de sécurité visent à protéger les modèles d’IA contre les accès non autorisés ou le vol. Tous les modèles actuels doivent répondre au moins à la norme ASL-2.
Seuils de capacité : Il s’agit de niveaux prédéfinis de capacité de l’IA qui, une fois atteints, déclenchent la nécessité de normes ASL plus élevées. Ils signalent une augmentation significative du risque nécessitant des mesures de protection renforcées. Les seuils de capacité spécifiques incluent les préoccupations liées aux armes chimiques, biologiques, radiologiques et nucléaires (CBRN), ainsi qu’à la recherche et au développement autonomes de l’IA (R&D IA).
Mesures de protection requises : Elles représentent les mesures spécifiques de sûreté et de sécurité requises pour chaque seuil de capacité afin d’atténuer les risques à des niveaux acceptables. Elles constituent la mise en œuvre pratique des normes ASL.
Évaluation des capacités : Elle implique des tests préliminaires et complets pour déterminer si les capacités d’un modèle dépassent les seuils de capacité établis. Si les seuils sont dépassés, les modèles sont mis à niveau vers les mesures de protection requises ASL-3.
Évaluation des mesures de protection : Elle évalue si les mesures mises en œuvre satisfont aux mesures de protection requises ASL-3. Cela comprend le red-teaming, la modélisation des menaces et l’établissement de cadres de sécurité robustes.
Évaluation de suivi des capacités : Elle est menée en conjonction avec la mise à niveau d’un modèle vers les mesures de protection requises ASL-3 pour s’assurer que des mesures de protection supplémentaires ne sont pas nécessaires.

Outils et processus pratiques

Pour déterminer que la norme ASL-2 reste appropriée, Anthropic effectue régulièrement des contrôles sur les modèles nouveaux et existants, en commençant par une évaluation préliminaire. Les aspects clés de ce processus comprennent :

Mesurer la performance sur des tests automatisés
Suivre le réglage fin cumulatif depuis la dernière évaluation complète.

Si ces contrôles sont réussis, aucun test supplémentaire n’est nécessaire. Lorsqu’un cycle de test plus complet est justifié, l’entreprise s’engage dans une évaluation plus approfondie pour s’assurer que les risques restent en dessous du seuil.

Gouvernance et transparence

L’engagement d’Anthropic envers une IA responsable s’étend aux processus internes et à la transparence externe. Les principales mesures comprennent :

Responsable de l’évolution responsable : Un membre du personnel désigné, responsable de la conception et de la mise en œuvre efficaces de la politique d’évolution responsable.
Procédures de sécurité internes : Élaboration de procédures pour les scénarios d’incident, comme la suspension de la formation ou la réponse aux violations de la sécurité.
Transparence : Publication d’informations clés relatives à l’évaluation et au déploiement des modèles, y compris des résumés des rapports sur les capacités et les mesures de protection.
Contribution d’experts : Sollicitation active de la contribution d’experts externes dans les domaines pertinents pour éclairer les évaluations des capacités et des mesures de protection.
Supervision du conseil d’administration: Les changements à leur politique d’évolution responsable sont proposés par le PDG et le responsable de l’évolution responsable, et approuvés par le conseil d’administration, en consultation avec le fonds fiduciaire de bénéfice à long terme.

Implications réglementaires et politiques

Anthropic a l’intention que sa politique d’évolution responsable éclaire les meilleures pratiques de l’industrie et serve potentiellement de prototype pour les futures réglementations en matière d’IA. La politique est conçue pour être proportionnée, itérative et exportable, équilibrant l’innovation avec des mesures de sécurité strictes.

Quelles normes de sécurité sont mises en œuvre pour la formation et le déploiement des modèles d’IA d’Anthropic ?

Anthropic utilise une approche de la sécurité de l’IA basée sur les risques, en utilisant les normes de niveau de sécurité de l’IA (ASL). Ces normes comprennent des mesures techniques et opérationnelles conçues pour assurer la formation et le déploiement sûrs des modèles d’IA de pointe.

Normes ASL : Déploiement et sécurité

Actuellement, les définitions ASL sont divisées en deux catégories :

Normes de déploiement : Ces normes comprennent les mesures prises pour garantir que les modèles d’IA sont utilisés en toute sécurité en alignant les contrôles techniques, opérationnels et politiques afin d’atténuer les potentielles utilisations abusives catastrophiques de la part des utilisateurs externes (c’est-à-dire les utilisateurs et les clients d’Anthropic) ainsi que des utilisateurs internes (c’est-à-dire les employés d’Anthropic).
Normes de sécurité : Ces normes comprennent les mesures techniques, opérationnelles et politiques visant à protéger les modèles d’IA contre l’accès non autorisé, le vol ou la compromission des systèmes internes par des acteurs malveillants.

Tous les modèles d’Anthropic doivent répondre aux normes ASL-2 de déploiement et de sécurité, qui comprennent :

La publication de fiches de modèle qui décrivent les capacités, les limitations, les évaluations et les cas d’utilisation prévus du modèle.
L’application d’une politique d’utilisation qui restreint les cas d’utilisation catastrophiques et à fort risque, comme la génération de contenu qui pose des risques graves pour l’humanité ou qui cause un préjudice direct aux individus.
L’utilisation d’une formation à l’innocuité, telle que l’IA constitutionnelle, et de mécanismes de détection automatisés pour former les modèles à refuser les requêtes qui aident à causer des dommages.
La fourniture aux utilisateurs de canaux de signalement des vulnérabilités et d’une prime aux bogues pour les jailbreaks universels.
Le respect d’examens rigoureux de la sécurité des fournisseurs et des prestataires, des mesures de sécurité physique, l’utilisation de principes de sécurité dès la conception et la mise en œuvre d’une infrastructure de sécurité standard, de logiciels de surveillance, d’outils de gestion des accès et de chiffrement des disques.

Déclenchement de normes plus élevées : seuils de capacité et garanties requises

À mesure que les capacités des modèles d’IA augmentent, Anthropic utilise un système de seuils de capacité et de garanties requises pour déterminer quand les mesures de sécurité doivent être renforcées. Un seuil de capacité indique quand une mise à niveau des protections est nécessaire, déclenchant une transition d’une norme ASL-N à une norme ASL-N+1, voire plus élevée. Les garanties requises précisent ensuite les normes ASL qui doivent être respectées. Les besoins spécifiques des différents modèles d’IA varient, il n’est donc pas toujours nécessaire de mettre à niveau simultanément les normes de déploiement et de sécurité.

Évaluation des capacités du modèle

Anthropic effectue des évaluations rigoureuses pour déterminer si les capacités d’un modèle dépassent les seuils de capacité établis. Cela implique :

Évaluations préliminaires : Ces évaluations sont menées pour déterminer si une évaluation plus complète est nécessaire, et comparent les modèles sur la base de tests automatisés dans les domaines pertinents en matière de risques et de l’impact des méthodes de réglage fin.
Tests complets : Si les évaluations préliminaires indiquent que le modèle approche une ligne rouge, ces tests évalueront si le modèle est peu susceptible d’atteindre des seuils de capacité pertinents en l’absence de progrès surprenants dans les améliorations post-formation largement accessibles. Ces tests doivent satisfaire à des critères tels que la cartographie des modèles de menaces, la réalisation d’évaluations empiriques, la démonstration de résultats d’élicitation limités et les prévisions.

Si des tests complets révèlent qu’un modèle est susceptible de dépasser un seuil de capacité, Anthropic agira comme si le seuil avait été dépassé, en passant aux garanties requises ASL-3 et en effectuant un suivi pour évaluer la nécessité de normes ASL-4.

Garantir des garanties adéquates : exigences ASL-3

Pour répondre aux garanties requises ASL-3, Anthropic effectuera une évaluation des garanties pour :

Évaluer si les mesures mises en œuvre sont robustes contre les tentatives persistantes d’utilisation abusive des capacités dangereuses en effectuant une modélisation des menaces, en instituant une défense en profondeur, des équipes rouges, une correction rapide et en établissant une surveillance.
S’assurer que les modèles sont hautement protégés contre la plupart des attaquants qui tentent de voler les pondérations du modèle en utilisant les meilleures pratiques de gouvernance, en appliquant des cadres de sécurité, en effectuant des audits et en s’assurant que les mesures peuvent être utilisées dans des environnements tiers.

Si les garanties requises ASL-3 ne peuvent pas être mises en œuvre immédiatement, des mesures provisoires d’atténuation des risques seront appliquées.

Gouvernance et transparence

Pour faciliter la mise en œuvre efficace de cette politique dans toute l’entreprise, Anthropic s’est engagé à prendre plusieurs mesures de gouvernance interne :

Maintenir le poste de responsable de la mise à l’échelle responsable, afin de superviser la conception et la mise en œuvre efficaces de la politique.
Établir des processus pour recevoir des notifications anonymes par lesquelles le personnel d’Anthropic peut informer le responsable de la mise à l’échelle responsable des cas potentiels de non-conformité.
Élaborer des procédures de sécurité internes pour les scénarios d’incident.

Pour faire progresser le dialogue public sur la réglementation des risques liés aux modèles d’IA de pointe et pour permettre l’examen des actions d’Anthropic, l’entreprise s’engage à :

Publier des documents clés, dont les informations sensibles ont été supprimées, liés à l’évaluation et au déploiement des modèles d’IA.
Solliciter l’avis d’experts externes dans les domaines pertinents.

Comment les seuils de capacité sont-ils utilisés pour déterminer le besoin de garanties renforcées

Au cœur de la gouvernance des risques liés à l’IA se trouve le concept de « Seuils de capacité ». Ces seuils agissent comme des déclencheurs cruciaux, signalant que les capacités d’un modèle d’IA ont atteint un point où les garanties existantes ne sont plus suffisantes et doivent être améliorées. Considérez cela comme une ligne rouge sur un moteur – une fois franchie, des mesures de protection plus robustes sont essentielles.

Plus précisément, un seuil de capacité indique :

Une augmentation significative du niveau de risque si le modèle reste soumis aux garanties actuelles.
Un besoin correspondant de mettre à niveau les garanties vers une norme de niveau de sécurité de l’IA (ASL) plus élevée.

En pratique, le dépassement d’un seuil de capacité déclenche un passage d’une norme ASL-N à une norme ASL-N+1 (ou, dans certains cas, directement à un niveau encore plus élevé). La réponse appropriée (telle que la mise en œuvre des garanties ASL-3) est déterminée par :

Évaluation des capacités : Les modèles sont régulièrement testés pour déterminer dans quelle mesure ils sont proches du dépassement des seuils de capacité prédéfinis. Les évaluations préliminaires déterminent quand des tests plus complets sont nécessaires.
Cartographie des modèles de menace : Cartographie des cas les plus probables.
Élicitation et évaluation : Démonstration que, lorsqu’on donne suffisamment de ressources pour extrapoler à des attaquants réalistes, les chercheurs ne peuvent pas obtenir de résultats utiles du modèle sur les tâches pertinentes.
Garanties requises correspondantes : Selon le seuil dépassé, les garanties requises spécifiques précisent les normes ASL qui doivent être respectées. Il n’est pas toujours nécessaire d’améliorer à la fois les normes de déploiement et de sécurité.

L’identification et l’application de ces seuils de capacité sont la pierre angulaire d’une gestion proportionnée des risques dans le développement de l’IA. En surveillant de près les capacités du modèle et en répondant par des garanties renforcées appropriées, les développeurs visent à équilibrer l’innovation et la sécurité, en veillant à ce que l’IA profite à la société sans causer de dommages inacceptables.

Quelles sont les garanties obligatoires désignées associées aux différents seuils de capacité ?

À mesure que les modèles d’IA évoluent au-delà de la base de référence ASL-2, l’industrie reconnaît que des seuils de capacité plus élevés nécessitent des garanties plus fortes. Un seuil de capacité agit comme un déclencheur, signalant la nécessité de renforcer les protections à un niveau de sécurité de l’IA (ASL) plus élevé.

Principaux points à retenir :

Les garanties obligatoires sont conçues pour atténuer les risques à des niveaux acceptables, indiquant un équilibre entre les avantages du développement de modèles frontières et les dangers potentiels.
Anthropic préconise l’adoption généralisée de ces normes dans l’ensemble de l’industrie, soulignant l’importance d’investir dans la recherche et le développement pour une mise en œuvre robuste.

Armes CBRN

Les capacités de développement d’armes chimiques, biologiques, radiologiques et nucléaires (CBRN) déclenchent différentes garanties :

CBRN-3 : La capacité d’aider de manière significative les personnes ayant des connaissances STEM de base à créer/obtenir et à déployer des armes CBRN. Ce déclencheur nécessite à la fois une norme de déploiement ASL-3 et une norme de sécurité ASL-3, protégeant contre une utilisation abusive et le vol de poids de modèle par des acteurs non étatiques.
CBRN-4 : La capacité d’améliorer considérablement les capacités de développement CBRN des programmes d’État modérément dotés en ressources. Ce seuil devrait nécessiter les normes de déploiement et de sécurité ASL-4 ; de plus amples détails seront publiés dans une prochaine mise à jour.

Recherche et développement autonomes en IA

Les capacités de recherche et développement autonomes en IA déclenchent également des garanties spécifiques :

IA R&D-4 : La capacité d’automatiser entièrement le travail d’un chercheur débutant travaillant uniquement à distance chez Anthropic. Nécessite la norme de sécurité ASL-3 et une analyse affirmative identifiant et atténuant les risques immédiats liés aux modèles poursuivant des objectifs mal alignés.
IA R&D-5 : La capacité de provoquer une accélération spectaculaire du taux de demandes d’échelonnement efficaces nécessite au minimum la norme de sécurité ASL-4 (potentiellement plus élevée) ainsi qu’une analyse affirmative.

Le point de contrôle potentiel de l’autonomie des modèles permettant d’effectuer de manière autonome un large éventail de tâches d’ingénierie logicielle de 2 à 8 heures déclenchera la mise en œuvre de la sécurité ASL-3.

Considérations relatives aux cyberopérations :

La capacité d’améliorer ou d’automatiser de manière significative des cyberattaques destructrices sophistiquées est reconnue comme une capacité nécessitant une enquête approfondie. Cela implique de collaborer avec des experts en cybersécurité pour évaluer le potentiel des modèles frontières à la fois pour améliorer et atténuer les cybermenaces, et d’envisager des contrôles d’accès échelonnés ou des déploiements progressifs.

Comment Anthropic évalue les capacités de ses modèles d’IA

Anthropic emploie une approche multicouche pour évaluer les capacités de ses modèles d’IA, garantissant une mise à l’échelle responsable qui s’aligne sur les risques potentiels. Leur cadre est centré sur les normes de niveau de sécurité de l’IA (normes ASL), où l’augmentation des capacités du modèle nécessite des garanties plus solides. L’entreprise teste régulièrement les modèles pour voir s’ils se situent suffisamment en dessous de certains seuils de capacité pour que la norme ASL-2 reste adéquate.

Seuils de Capacité

Les seuils de capacité agissent comme des déclencheurs, indiquant quand les garanties existantes doivent être mises à niveau vers une norme ASL supérieure. Ces seuils sont des niveaux de capacité prédéterminés qui, s’ils sont atteints, signifient une augmentation significative du risque, nécessitant des protections renforcées. L’approche d’Anthropic cible spécifiquement les risques catastrophiques tels que ceux liés aux armes chimiques, biologiques, radiologiques et nucléaires (CBRN) et à la recherche et développement autonome en IA (R&D IA).

Procédures d’Évaluation

Anthropic utilise un processus d’évaluation par étapes :

Évaluations Préliminaires : Ces évaluations initiales déterminent si un modèle nécessite une analyse plus approfondie (« évaluation complète »). Ceci est déclenché si le modèle est « nettement plus performant », ce qui est défini comme : 1. nettement plus performant sur les tests automatisés dans les domaines pertinents en matière de risque (défini comme 4x ou plus en calcul effectif), ou 2. Six mois d’affinage et autres méthodes d’élicitation des capacités se sont accumulés. De plus, le responsable de la mise à l’échelle responsable peut, à sa discrétion, déterminer qu’une évaluation complète est justifiée.
Évaluations Complètes : Pour les modèles dépassant les critères d’évaluation préliminaire, une évaluation complète évalue la probabilité d’atteindre les seuils de capacité. Ce processus implique :
- Cartographie des modèles de menace : Présenter une argumentation convaincante que nous avons cartographié les modèles de menace les plus probables et les plus conséquents.
- Évaluations : Concevoir et exécuter des tests empiriques qui fournissent des preuves solides que le modèle ne possède pas les compétences requises.
- Élicitation : Démontrer que, lorsque l’on donne suffisamment de ressources pour extrapoler à des attaquants réalistes, les chercheurs ne peuvent pas obtenir des résultats suffisamment utiles du modèle sur les tâches pertinentes.
- Prévisions : Faire des prévisions informelles sur la probabilité que d’autres entraînements et élicitations améliorent les résultats des tests entre le moment des tests et le prochain cycle prévu de tests complets.

Prise de Décision

Suite à l’évaluation complète, un rapport de capacité documente les conclusions et plaide pour savoir si le modèle reste suffisamment en dessous des seuils de capacité : Le rapport est transmis au PDG et au responsable de la mise à l’échelle responsable, qui (1) prendront la décision finale quant à savoir si nous avons suffisamment établi qu’il est peu probable que nous atteignions le seuil de capacité et (2) décideront de toute question liée au déploiement. En général, comme indiqué dans les sections 7.1.4 et 7.2.2, nous solliciterons les commentaires d’experts internes et externes sur le rapport ainsi que sur les conclusions du PDG et du RSO afin d’éclairer les améliorations futures de notre méthodologie.

Si le modèle est jugé avoir dépassé un seuil, Anthropic passe aux garanties requises ASL-3 et effectue une évaluation de capacité de suivi pour s’assurer que les normes ASL-4 ne sont pas nécessaires.

Transparence et Gouvernance

Anthropic met l’accent sur la transparence en publiant publiquement les principaux documents relatifs à l’évaluation et au déploiement de ses modèles, après avoir supprimé les informations sensibles. L’entreprise s’engage également à prendre des mesures de gouvernance interne, notamment en maintenant un responsable de la mise à l’échelle responsable, en établissant des canaux de signalement anonymes pour les cas potentiels de non-conformité et en élaborant des procédures de sécurité internes pour la réponse aux incidents.

Quels processus font partie intégrante de l’évaluation de l’efficacité des mesures de protection mises en œuvre ?

L’évaluation de l’efficacité des mesures de protection mises en œuvre est un processus à multiples facettes qui implique une évaluation rigoureuse et une amélioration continue. Voici la ventilation :

Évaluation des mesures de protection

Cette évaluation est essentielle pour déterminer si les mesures mises en œuvre respectent les mesures de protection requises ASL-3. Un rapport sur les mesures de protection documente en détail la mise en œuvre de ces mesures de protection.

Évaluation de la norme de déploiement ASL-3 : évalue la robustesse contre les tentatives d’utilisation abusive persistantes. Cela implique :
Modélisation des menaces : cartographie critique des vecteurs potentiels d’utilisation abusive catastrophique.
Défense en profondeur : création de défenses en couches pour détecter les utilisations abusives. Utilisation de techniques de refus de préjudice.
Red-Teaming : démontrer que des acteurs de menace réalistes ne peuvent pas constamment susciter des réponses qui augmentent leur capacité à causer des dommages catastrophiques.
Remédiation rapide : identification et correction rapides des compromissions du système.
Surveillance : examen continu des performances du système par rapport aux plages de risque acceptées. Surveillance des réponses aux primes de jailbreak, réalisation d’analyses historiques et surveillance en arrière-plan.
Utilisateurs de confiance : établissement de critères pour le partage de modèles avec des mesures de protection réduites avec des utilisateurs de confiance en utilisant une combinaison de vérification des utilisateurs, de contrôles d’accès sécurisés, de surveillance, de conservation des journaux et de protocoles de réponse aux incidents.
Environnements tiers : documentation de la manière dont tous les modèles répondront à ces critères, même dans les déploiements tiers avec des mesures de protection différentes.

Évaluation de la norme de sécurité ASL-3 : détermine si les mesures sont hautement protégées contre le vol de poids du modèle. Cela implique :

Modélisation des menaces : utilisation de cadres tels que MITRE ATT&CK pour cartographier les menaces, les actifs et les vecteurs d’attaque.

Alignement des cadres de sécurité : utilisation de cadres de sécurité standard de l’industrie pour les risques identifiés.

Construction de périmètres et de contrôles d’accès solides assurant la protection contre les accès non autorisés. Cela comprend une combinaison de sécurité physique, de cryptage, de sécurité du cloud, de politique d’infrastructure, de gestion des accès et de minimisation et de surveillance de l’accès au poids.
Sécurisation des liens dans la chaîne de systèmes et de logiciels utilisés pour développer des modèles, afin d’empêcher l’introduction de composants compromis et de garantir que seuls du code et du matériel approuvés sont utilisés. Cela comprend une combinaison d’inventaire de logiciels, de sécurité de la chaîne d’approvisionnement, d’intégrité des artefacts, d’autorisation binaire, d’achat de matériel et de cycle de vie sécurisé du développement de la recherche.
Identification et atténuation proactives des menaces grâce à une surveillance continue et efficace, des tests de vulnérabilités et la pose de pièges pour les attaquants potentiels. Cela comprend une combinaison de correctifs de points de terminaison, de tests de sécurité des produits, de gestion des journaux, de surveillance des actifs et de techniques de tromperie des intrus.
Investissement de ressources suffisantes dans la sécurité. Le respect de cette norme de sécurité nécessite qu’environ 5 à 10 % des employés soient affectés à la sécurité et aux tâches liées à la sécurité.
Alignement, le cas échéant, sur les directives existantes en matière de sécurisation des poids des modèles.

Audits : audit de la conception et de la mise en œuvre du programme de sécurité, partage des conclusions avec la direction. Cela comprend la validation indépendante des résultats de la modélisation des menaces et de l’évaluation des risques ; un audit par sondage de l’efficacité opérationnelle des contrôles définis ; et des tests périodiques, largement ciblés et indépendants avec des experts red-teamers reconnus par l’industrie et reconnus dans les défis concurrentiels.

Environnements tiers : documentation de la manière dont tous les modèles répondront à ces critères, même dans les déploiements tiers avec des mesures de protection différentes.

Processus de décision des mesures de protection

Le processus permettant de déterminer si les mesures de protection requises ASL-3 ont été respectées comprend :

Compilation d’un rapport sur les mesures de protection pour chaque mesure de protection requise. Plaider en faveur de leur satisfaction.
Remonter le(s) rapport(s) sur les mesures de protection au PDG et au responsable de la mise à l’échelle responsable.
Solliciter les commentaires d’experts internes et externes sur le rapport.
Partager la décision, le rapport sur les mesures de protection, les commentaires internes et externes avec le conseil d’administration et le trust de bénéfice à long terme.
Revoir et approuver de nouveau les mesures de protection requises ASL-3 au moins une fois par an.

Évaluation de la capacité de suivi

Parallèlement à la mise à niveau d’un modèle vers les mesures de protection requises, la politique est mise à jour pour inclure tout seuil de capacité supplémentaire et une évaluation de la capacité de suivi est effectuée.

Gouvernance et transparence

La gouvernance interne implique le responsable de la mise à l’échelle responsable qui est responsable de la conception et de la mise en œuvre de la politique. L’évaluation externe implique une collaboration avec des experts externes dans les domaines pertinents dans le processus d’élaboration et de réalisation d’évaluations des capacités et des mesures de protection. L’entreprise recherche également un examen de la conformité procédurale et prévoit d’informer une entité gouvernementale américaine compétente si un modèle nécessite des protections plus fortes que la norme ASL-2.

Quelle est la procédure pour déterminer les stratégies de déploiement appropriées et les résultats de mise à l’échelle pour les modèles d’Anthropic

Anthropic emploie un processus structuré en plusieurs étapes pour déterminer les stratégies de déploiement appropriées et les résultats de mise à l’échelle pour ses modèles d’IA. Ce processus est guidé par la Politique de Mise à l’Échelle Responsable (RSP) et son recours aux Normes de Niveau de Sécurité de l’IA (ASL). L’objectif ultime est de prévenir les dommages catastrophiques et d’atténuer les risques à des niveaux acceptables, en équilibrant l’innovation avec des garanties robustes.

Évaluation des Capacités

La première étape consiste en une Évaluation des Capacités, qui détermine dans quelle mesure les capacités d’un modèle sont proches des Seuils de Capacité établis. Ces seuils indiquent quand les risques potentiels d’un modèle nécessitent des garanties renforcées (passant de ASL-2 à ASL-3, par exemple). Le processus d’évaluation comprend :

Évaluation Préliminaire : Une vérification rapide pour voir si le modèle est « notablement plus performant » que les modèles précédents. Les métriques ici sont des tests automatisés dans des « domaines pertinents pour les risques » (amélioration mesurée comme 4x dans le Calcul Effectif) ou l’accumulation d’améliorations post-formation comparables à six mois d’affinements continus.
Évaluation Complète : Requise si un modèle dépasse le seuil « notablement plus performant ». Cette évaluation teste rigoureusement le potentiel d’atteinte des Seuils de Capacité, en examinant les combinaisons d’acteurs, les voies d’attaque et ce qui serait nécessaire pour causer des dommages. Ceci comprend :
- Cartographie des modèles de menace pour identifier les modèles de menace conséquents probables.
- Tests empiriques pour démontrer que le modèle n’a pas de capacités liées aux risques.
- Exercices d’élicitation pour déterminer si les chercheurs peuvent obtenir des résultats utiles, même sans mécanismes de sécurité.
- Prévisions sur la façon dont une formation supplémentaire peut augmenter les résultats des tests.
Rapport de Capacité : Un document détaillé compilant les conclusions de l’évaluation pour démontrer que le Seuil de Capacité est suffisamment éloigné, et avançant des recommandations de déploiement. Ce document, ainsi que les commentaires internes et externes, sont soumis au PDG d’Anthropic et au Responsable de la Mise à l’Échelle Responsable pour une décision finale.

Si l’évaluation complète démontre qu’un modèle se situe suffisamment en dessous d’un Seuil de Capacité, il peut poursuivre son déploiement en respectant la Norme ASL-2. Cependant, si l’évaluation suggère que le modèle a possiblement dépassé un seuil, cela déclenche une mise à niveau vers les Garanties Requises ASL-3 ainsi qu’une évaluation de capacité de suivi pour déterminer si la Norme ASL-4 est nécessaire.

Évaluation des Garanties

Si un modèle dépasse un Seuil de Capacité, une Évaluation des Garanties est lancée pour s’assurer d’une atténuation appropriée des risques en vérifiant si les mesures mises en œuvre satisfont aux Garanties Requises ASL-3. Ce processus comprend la rédaction d’un Rapport de Garanties pour documenter la preuve que le modèle satisfait aux critères des normes des seuils :

Le respect des Normes de Déploiement ASL-3 nécessite une « défense en profondeur » utilisant des couches pour intercepter les attaques, des exercices de red-teaming, une remédiation rapide et des utilisateurs de confiance avec des contrôles de sécurité alternatifs.
Le respect des Normes de Sécurité ASL-3 garantit la protection des poids du modèle avec des contrôles de sécurité alignés sur le cadre de travail, une modélisation des menaces utilisant le Framework MITRE ATT&CK et des contrôles de périmètre et d’accès.

Si des vulnérabilités sont découvertes, le déploiement du modèle est limité. Sinon, le déploiement peut se poursuivre.

Résultats de Déploiement et de Mise à l’Échelle

En fin de compte, Anthropic peut procéder au déploiement et à la mise à l’échelle supplémentaire si :

Les capacités du modèle sont suffisamment éloignées des Seuils de Capacité existants pour que son ASL-2 actuel soit approprié.
Le modèle a dépassé les Seuils de Capacité mais respecte les Garanties Requises ASL-3.

Si un modèle nécessite des garanties ASL-3 mais que ces garanties ne peuvent pas être mises en œuvre en temps opportun, la politique exige une action rapide pour réduire le risque intérimaire jusqu’à ce que les mesures appropriées soient en place. Des restrictions plus strictes, telles que la mise hors service du modèle ou la suppression des poids du modèle, peuvent être imposées si l’atténuation du risque intérimaire n’est pas plausible. De plus, les activités de préentraînement sont surveillées pour arrêter la formation des modèles qui approchent ou dépassent les capacités des modèles actuellement examinés au niveau de la Norme ASL-3 jusqu’à ce que des garanties adéquates soient mises en œuvre.

Gouvernance et Transparence

Des mesures de gouvernance sont mises en œuvre en interne dans toute l’entreprise pour assurer la pleine conformité à la Politique de Mise à l’Échelle Responsable. Des contributions externes sont sollicitées et les informations clés relatives aux tests de chaque modèle sont souvent partagées publiquement, les détails sensibles étant supprimés.

Quels protocoles sont en place pour traiter les scénarios où les mesures de protection requises ne peuvent pas être mises en œuvre immédiatement ?

Lorsqu’un modèle atteint un point où les mesures de protection requises ASL-3 sont jugées nécessaires, mais que ces mesures de protection ne peuvent pas être mises en place immédiatement, Anthropic s’engage à adopter une approche progressive de l’atténuation des risques. L’objectif est de réduire le risque provisoire à des niveaux acceptables jusqu’à ce que les mesures de protection ASL-3 complètes soient opérationnelles :

Mesures provisoires

Le PDG et le responsable de la mise à l’échelle responsable (RSO) peuvent approuver des mesures provisoires qui offrent le même niveau d’assurance que la norme ASL-3, mais qui sont plus rapides ou plus simples à mettre en œuvre. Ceux-ci peuvent inclure :

Blocage des réponses du modèle.
Rétrogradation vers un modèle moins performant dans des domaines spécifiques.
Augmentation de la sensibilité des systèmes de surveillance automatisés.
Stockage des poids du modèle dans un réseau isolé à usage unique qui répond à la norme de sécurité ASL-3.

Un tel plan est partagé avec le conseil d’administration d’Anthropic et le Long-Term Benefit Trust.

Restrictions plus strictes

Si les mesures provisoires sont insuffisantes pour atténuer adéquatement les risques, Anthropic mettra en œuvre des restrictions plus strictes, telles que :

Déploiement du modèle et remplacement par un modèle inférieur au seuil de capacité. Une fois que les exigences de la norme de déploiement ASL-3 sont satisfaites, le modèle peut être redéployé.
Suppression des poids du modèle dans le contexte de sécurité. Anthropic estime qu’avec l’utilisation du déploiement provisoire et des protections de sécurité, il devrait rarement être nécessaire d’imposer des restrictions plus strictes.

Surveillance de la préformation

Anthropic ne formera pas de modèles ayant des capacités comparables ou supérieures à celles qui exigent la norme de sécurité ASL-3, opérationnalisée à 1x ou plus en calcul effectif, tant que la norme de sécurité ASL-3 n’est pas mise en œuvre. Si les capacités du modèle de préformation sont comparables ou supérieures, la formation sera interrompue jusqu’à ce que des mesures de protection suffisantes soient en place.

french

Quelles structures de gouvernance interne soutiennent la politique de mise à l’échelle responsable ?

Pour mettre en œuvre efficacement la politique de mise à l’échelle responsable (RSP) dans toute l’organisation, Anthropic s’engage à maintenir plusieurs mesures de gouvernance interne clés. Ces structures sont conçues pour garantir la conformité, la transparence et la responsabilité dans le développement et le déploiement de modèles d’IA.

Éléments clés de la gouvernance

Responsable de la mise à l’échelle responsable (RSO) : Un membre du personnel désigné est responsable de la réduction des risques catastrophiques associés aux modèles d’IA. Les fonctions du RSO comprennent la proposition de mises à jour des politiques, l’approbation des décisions de formation et de déploiement des modèles sur la base des évaluations des capacités et des garanties, l’examen des contrats importants pour assurer la cohérence des politiques, la supervision de la mise en œuvre des politiques, le traitement des signalements de non-conformité, la notification au conseil d’administration de toute non-conformité importante et l’interprétation de la politique.
Préparation aux incidents : Des procédures de sécurité internes sont élaborées pour les scénarios d’incident, tels que la suspension de la formation lors de l’atteinte des seuils de capacité, la réponse aux incidents de sécurité impliquant des pondérations de modèles et la résolution des évasions de prison graves ou des vulnérabilités dans les modèles déployés. Des exercices sont menés pour assurer la préparation à ces scénarios.
Transparence interne : Des résumés des rapports de capacités et des rapports de garanties sont partagés avec le personnel ayant une habilitation régulière, les informations très sensibles étant expurgées. Une version minimalement expurgée est partagée avec un sous-ensemble du personnel afin de faire ressortir les considérations pertinentes en matière de sécurité technique.
Examen interne : Les commentaires des équipes internes sur les rapports de capacités et de garanties sont sollicités afin d’affiner les méthodologies et d’identifier les faiblesses.
Procédures de non-conformité : Un processus est maintenu pour permettre au personnel d’Anthropic de signaler anonymement les cas potentiels de non-conformité à la RSP. La politique de signalement de la non-conformité protège les personnes qui signalent contre les représailles, établit un mécanisme de transmission des signalements au conseil d’administration et exige le suivi, l’enquête et les mesures correctives pour les signalements justifiés. Le RSO tient régulièrement le conseil d’administration informé des cas importants de non-conformité et des tendances générales.
Accords avec les employés : Les obligations contractuelles de non-dénigrement ne sont pas imposées aux employés, aux candidats ou aux anciens employés d’une manière qui les empêcherait ou les découragerait de soulever publiquement des préoccupations en matière de sécurité concernant Anthropic. Les accords contenant des clauses de non-dénigrement n’empêcheront pas de soulever des préoccupations en matière de sécurité ou de divulguer l’existence de la clause.
Modifications de la politique : Les modifications de la RSP sont proposées par le PDG et le RSO et approuvées par le conseil d’administration, en consultation avec le Long-Term Benefit Trust (LTBT). La version actuelle de la RSP est accessible en ligne et les mises à jour sont rendues publiques avant que les modifications n’entrent en vigueur, ainsi qu’un journal des modifications.

Comment Anthropic assure la transparence et recueille les contributions externes sur ses pratiques de sécurité en matière d’IA

Anthropic vise à faire progresser le dialogue public sur la réglementation de l’IA et à s’assurer que les parties prenantes peuvent examiner ses actions grâce à plusieurs mesures clés :

Divulgations Publiques

L’entreprise s’engage à publier des informations clés concernant l’évaluation et le déploiement de ses modèles d’IA. Cela exclut les détails sensibles, mais inclut des résumés des rapports de capacité et de sauvegarde lors du déploiement d’un modèle. Ces rapports détaillent les mesures de sécurité qui ont été prises. Anthropic divulguera également les plans pour les évaluations complètes des capacités actuelles et futures, ainsi que les mesures de sauvegarde en matière de déploiement et de sécurité. L’entreprise a l’intention de publier périodiquement des informations sur les rapports internes d’incidents potentiels de non-conformité et d’autres difficultés de mise en œuvre rencontrées.

Contribution d’Experts

Anthropic sollicitera une expertise externe lors de l’élaboration des évaluations de capacité et de sauvegarde. Ce processus de consultation peut également s’étendre avant la prise de décision finale sur ces évaluations.

Notification au Gouvernement Américain

La politique exige de notifier à une entité gouvernementale américaine pertinente si un modèle nécessite des protections plus fortes que la norme ASL-2.

Examen de la Conformité Procédurale

Environ une fois par an, Anthropic commande un examen par un tiers pour évaluer si l’entreprise a respecté les principaux engagements procéduraux de la politique. Ces examens se concentrent spécifiquement sur le respect des exigences du plan plutôt que d’essayer de juger les résultats obtenus. Anthropic effectue également le même type d’examens en interne selon un calendrier plus régulier.

Communication Publique

Anthropic maintient une page publique (www.anthropic.com/rsp-updates) pour fournir des aperçus des rapports de capacité et de sauvegarde passés, des mises à jour liées au RSP et des plans pour l’avenir. La page fournit des détails pour faciliter les conversations sur les meilleures pratiques de l’industrie en matière de mesures de sauvegarde, d’évaluations de capacité et de sollicitation.

Gouvernance et Transparence

La Politique d’Échelonnement Responsable (PER) d’Anthropic met l’accent à la fois sur la gouvernance interne et la transparence externe. Des mesures clés sont en place pour assurer la mise en œuvre de la politique, promouvoir la responsabilisation et favoriser la collaboration.

Gouvernance Interne :

Responsable de l’Échelonnement Responsable (RER) : Un membre du personnel désigné supervise la réduction des risques en assurant la conception et la mise en œuvre efficaces de la PER. Les fonctions du RER comprennent les mises à jour de la politique, les approbations de décisions, les examens de contrats, l’allocation des ressources et le traitement des signalements de non-conformité.
Préparation : Anthropic a développé des procédures de sécurité internes pour les scénarios d’incident, notamment la suspension de l’entraînement, la réponse aux violations de sécurité et la résolution des vulnérabilités des modèles.
Transparence : Des résumés des rapports de capacité et des rapports de sauvegarde sont partagés en interne pour promouvoir la sensibilisation et faciliter les considérations de sécurité technique.
Revue Interne : Les équipes internes sont invitées à donner leur avis sur les rapports de capacité et de sauvegarde afin d’affiner les méthodologies et d’identifier les faiblesses.
Non-conformité : Un processus permet au personnel de signaler anonymement au RER tout non-respect de la politique. Une politique protège les personnes qui signalent contre les représailles et établit des mécanismes d’escalade. Tous les signalements sont suivis, examinés et traités avec des mesures correctives.
Accords avec les employés : Les obligations contractuelles de non-dénigrement sont construites de manière à ne pas entraver ou décourager les employés d’exprimer des préoccupations concernant la sécurité d’Anthropic.
Modifications de la politique : Les modifications de cette politique ne sont mises en œuvre que par le PDG et le responsable de l’échelonnement responsable, après approbation du conseil d’administration, en consultation avec le Long-Term Benefit Trust.

Transparence et Contribution Externe :

Divulgations Publiques : Les informations clés sur l’évaluation et le déploiement des modèles sont publiées, notamment des résumés des rapports de capacité et des rapports de sauvegarde, des plans d’évaluation et des détails sur les garanties, sous réserve de la suppression des informations sensibles.
Contribution d’Experts : Des experts externes sont consultés lors des évaluations des capacités et des garanties et lors des processus de prise de décision finale.
Notification au gouvernement américain : Une entité gouvernementale américaine compétente sera notifiée si un modèle nécessite plus de protections que ASL-2.
Revue de la Conformité Procédurale : Environ une fois par an, et plus régulièrement en interne, une tierce partie se concentre sur le respect des politiques, et non sur la manière dont les problèmes ont été résolus.

En fin de compte, l’approche stratifiée d’Anthropic en matière de sécurité de l’IA vise à naviguer dans le paysage complexe des capacités de l’IA en évolution rapide. En identifiant de manière proactive les seuils de risque, en évaluant rigoureusement les capacités des modèles et en adaptant les garanties en conséquence, une stratégie proportionnelle émerge, conçue pour favoriser l’innovation tout en atténuant simultanément les dommages potentiels. L’engagement envers la gouvernance interne et la transparence externe souligne une détermination à développer une IA responsable et à poursuivre continuellement les meilleures pratiques pour le bénéfice de la société.