¿Cuáles son los principios fundamentales que guían el enfoque de la Política de Escalamiento Responsable en la gestión de riesgos?
La Política de Escalamiento Responsable (RSP) de Anthropic se basa en tres principios fundamentales para gobernar el riesgo de la IA, diseñados para ser proporcionales, iterativos y exportables, como afirman en su documento.
Proporcionalidad: Adaptación de las salvaguardias a los niveles de riesgo
La RSP introduce los Estándares de Nivel de Seguridad de la IA (ASL), que establecen puntos de referencia técnicos y operativos vinculados a niveles de riesgo específicos. La idea es implementar salvaguardias que coincidan con los peligros potenciales de un modelo de IA, garantizando protecciones estrictas donde sea necesario sin obstaculizar innecesariamente la innovación. Esto se reduce a centrar los recursos en los modelos de mayor riesgo, al tiempo que se proporciona una mayor flexibilidad para los sistemas de menor riesgo.
Iteración: Adaptación a las capacidades de la IA en rápida evolución
El principio iterativo reconoce el rápido avance de la IA. El documento afirma que, con la rapidez con la que está evolucionando la tecnología de la IA, es imposible anticipar las medidas de seguridad necesarias para los modelos que están mucho más allá de la frontera actual. Anthropic se compromete a medir continuamente las capacidades del modelo y a ajustar las salvaguardias en consecuencia, investigando constantemente los riesgos potenciales y las técnicas de mitigación, y mejorando el propio marco de gestión de riesgos.
Exportabilidad: Establecer un estándar de la industria
Anthropic pretende demostrar cómo la innovación y la seguridad pueden coexistir. Al compartir externamente su enfoque de la gobernanza del riesgo, espera establecer un nuevo punto de referencia para la industria y fomentar una adopción más amplia de marcos similares. El objetivo es influir en la regulación compartiendo los resultados con los responsables políticos y otras empresas de IA, mostrando un enfoque de gestión de riesgos escalable.
El documento también deja claro que, si bien la RSP se ocupa principalmente de los riesgos catastróficos, Anthropic también reconoce otras preocupaciones. Estas incluyen el uso responsable de los modelos de IA de acuerdo con su Política de Uso, la prevención de la desinformación, la violencia, el comportamiento odioso y el fraude, que se gestionan a través de medidas técnicas para hacer cumplir las normas de confianza y seguridad.
¿Cómo se utilizan los umbrales de capacidad y las salvaguardias requeridas dentro del marco de la política para gestionar los riesgos asociados con los modelos de IA?
La Política de Escalado Responsable (RSP) de Anthropic utiliza los Umbrales de Capacidad y las Salvaguardias Requeridas como piedras angulares para gestionar los riesgos vinculados a modelos de IA cada vez más potentes. Considérelo como un protocolo de seguridad por etapas: cuanto mayor sea el riesgo potencial, más fuertes serán las protecciones. Aquí hay un desglose:
Conceptos clave
Umbrales de capacidad: Estos son niveles predefinidos de capacidad de IA que actúan como desencadenantes. Cuando un modelo alcanza un umbral, señala un aumento significativo del riesgo y la necesidad de salvaguardias mejoradas. Por ejemplo, se especifican umbrales para las capacidades relacionadas con el desarrollo de armas químicas, biológicas, radiológicas y nucleares (CBRN), y también para la investigación y el desarrollo autónomo de IA (I+D de IA).
Salvaguardias requeridas: Estos son los estándares específicos del Nivel de seguridad de la IA (ASL) que deben cumplirse para mitigar los riesgos asociados con un umbral de capacidad particular. Estos estándares se dividen en dos categorías:
- Estándares de implementación: Garantizan un uso seguro por parte de los usuarios externos y equilibran el uso beneficioso con los riesgos de uso indebido catastrófico.
- Estándares de seguridad: Son medidas técnicas, operativas y políticas vitales para proteger los modelos de IA del acceso no autorizado, el robo o el compromiso. Piense en proteger los «pesos» del modelo.
Cómo funciona: paso a paso
La RSP emplea umbrales de capacidad y salvaguardias requeridas en una serie de pasos de evaluación diseñados para mitigar el riesgo de forma proactiva:
- Evaluación de la capacidad
Evaluación preliminar: Los modelos nuevos y existentes se someten a pruebas para determinar si hay algún aumento notable en las capacidades, lo que desencadena una evaluación más exhaustiva.
Evaluación integral: Con pruebas integrales, Anthropic evalúa si el modelo puede alcanzar algún umbral al mapear amenazas sustanciales, ejecutar evaluaciones empíricas y medir cómo los investigadores pueden obtener capacidades útiles del modelo. Además, hacen pronósticos informales para determinar si las pruebas mejorarán los resultados con el tiempo.
- Escalada y acción:
Si un modelo supera un umbral de capacidad, la empresa actualiza al ASL de nivel superior correspondiente (por ejemplo, ASL-3). Esto garantiza que el modelo cumpla con los nuevos requisitos y estándares.
- Evaluación de salvaguardias
Estas evaluaciones buscan determinar si las salvaguardias requeridas son satisfactorias. Los estándares de implementación ASL-3 requieren una seguridad sólida contra el uso indebido persistente, mientras que el estándar de seguridad ASL-3 dicta una protección de alto nivel contra el robo de peso por parte de atacantes no estatales.
- Evaluación de la capacidad de seguimiento:
Después de la implementación, es necesario evaluar el nuevo modelo y medir si las capacidades de seguimiento son lo suficientemente suficientes para su uso.
Mitigación de riesgos en la práctica
El objetivo final es lograr un nivel de riesgo aceptable. Ya sea que las capacidades actuales del modelo estén suficientemente por debajo de los umbrales existentes, o si ha superado esos umbrales pero tiene las salvaguardias mejoradas implementadas, los modelos pueden usarse o implementarse solo en estos dos casos.
- Medidas provisionales: Si la implementación inmediata del ASL-3 es imposible, se promulgan medidas provisionales que proporcionan un nivel de seguridad similar.
- Restricciones más estrictas: Aparte de las medidas provisionales, las restricciones pueden implicar la implementación con un modelo por debajo de un umbral de capacidad, o la eliminación de los pesos actuales dentro del modelo actual.
- Monitoreo del preentrenamiento: Las capacidades del modelo de preentrenamiento deben ser monitoreadas y comparadas con los modelos capaces existentes. Si el modelo de preentrenamiento tiene capacidades similares, el entrenamiento se pausa hasta que se cumplan los estándares de seguridad.
Conclusiones clave para el cumplimiento
- Gestión dinámica de riesgos: La RSP reconoce que la gestión de riesgos de la IA debe ser iterativa, ajustando las salvaguardias a medida que evolucionan los modelos.
- Transparencia y responsabilidad: La divulgación pública de información clave, los resúmenes de los informes de capacidad y salvaguardia, y la solicitud de aportes de expertos son componentes cruciales.
- Proporcionalidad: Equilibrar la innovación de la IA con la seguridad mediante la implementación de salvaguardias que sean proporcionales a la naturaleza y el alcance de los riesgos de un modelo de IA.
Los oficiales de cumplimiento deben monitorear de cerca los umbrales de capacidad específicos definidos en la RSP y asegurarse de que los procesos de desarrollo e implementación de modelos se ajusten a las salvaguardias requeridas correspondientes. Estén atentos para obtener información adicional a medida que Anthropic continúa refinando su enfoque para la gobernanza del riesgo de la IA.
¿Cuáles son los componentes esenciales del proceso de Evaluación de Salvaguardias?
Para los modelos de IA que superan los Umbrales de Capacidad especificados, lo que podría indicar la necesidad de estándares de Nivel de Seguridad de IA (ASL) más altos, una Evaluación de Salvaguardias rigurosa es crucial. Este proceso determina si las medidas de seguridad y control de uso adoptadas satisfacen las Salvaguardias Requeridas de ASL-3.
Componentes clave para el Estándar de Despliegue ASL-3
Si un modelo activa el Estándar de Despliegue ASL-3, la evaluación se centra en la solidez de las salvaguardias contra el uso indebido persistente. Los criterios para satisfacer esto incluyen:
- Modelado de amenazas: Mapeo exhaustivo de posibles amenazas y vectores de ataque a través de los cuales el sistema desplegado podría ser objeto de un uso indebido catastrófico. Esto requiere una mejora continua.
- Defensa en profundidad: Implementación de múltiples capas defensivas. Esto está diseñado para detectar intentos de uso indebido que evaden las barreras iniciales, como las técnicas de rechazo de daños que alcanzan altas tasas de recuperación.
- Red-teaming: Pruebas adversarias realistas basadas en escenarios que demuestran la improbabilidad de que los actores de amenazas, con niveles de acceso y recursos plausibles, extraigan información que mejore significativamente su capacidad para causar daños catastróficos.
- Remediación rápida: Procesos que aseguran la identificación y remediación oportuna de compromisos del sistema, como jailbreaks. Esto implica el parcheo rápido de vulnerabilidades, la posible escalada a las fuerzas del orden y la retención de datos para su análisis.
- Monitoreo: Establecer métricas empíricas para garantizar la seguridad operacional dentro de los rangos de riesgo aceptados. También significa tener un proceso para analizar regularmente el rendimiento del sistema. Esto incluye la revisión de las respuestas a las recompensas por jailbreak, la realización de análisis históricos y la retención de los registros necesarios.
- Usuarios de confianza: Definir criterios para el intercambio controlado de modelos con «usuarios de confianza», garantizando una garantía de riesgo equivalente a través de la investigación de usuarios, controles de acceso seguros, monitoreo, retención de registros y respuesta a incidentes.
- Entornos de terceros: Demostrar la adhesión a los criterios antes mencionados, incluso cuando los modelos se implementan en entornos de terceros con salvaguardias potencialmente diferentes.
Componentes clave para el Estándar de Seguridad ASL-3
Para los modelos que activan el Estándar de Seguridad ASL-3, la evaluación evalúa la solidez de las protecciones contra el robo de peso del modelo por parte de varios actores de amenazas:
- Modelado de amenazas: Adhesión a las mejores prácticas de gobierno de riesgos utilizando marcos como MITRE ATT&CK para mapear exhaustivamente las amenazas, los activos y los vectores de ataque.
- Marcos de seguridad: Alineación y extensión de los marcos de seguridad estándar de la industria. Esto se utiliza para abordar los riesgos identificados e implementar los controles pertinentes. Los componentes del marco incluyen:
- Perímetros fuertes y controles de acceso alrededor de los activos sensibles.
- Seguridad del ciclo de vida en toda la cadena de suministro de sistemas y software.
- Identificación y mitigación proactiva de amenazas a través del monitoreo y las pruebas de vulnerabilidad.
- Inversión suficiente en recursos de seguridad.
- Alineación con la guía existente sobre la seguridad de los pesos del modelo, como Securing AI Model Weights, Preventing Theft and Misuse of Frontier Models y marcos de estándares como SSDF, SOC 2, NIST 800-53.
- Auditorías: Auditoría y evaluación independiente del diseño y la implementación del programa de seguridad. Los planes de auditoría también requieren el intercambio periódico de hallazgos y esfuerzos de remediación con la gerencia, así como el red-teaming experto.
- Entornos de terceros: Garantizar que todos los modelos relevantes cumplan con los criterios de seguridad incluso cuando se implementen en entornos de terceros que puedan tener un conjunto diferente de salvaguardias.
Después de estas evaluaciones, se compila un Informe de Salvaguardias que documenta la implementación de las medidas requeridas, su afirmación y las recomendaciones sobre las decisiones de despliegue, y es revisado por el CEO y el Funcionario de Escalado Responsable (RSO). También se solicitan comentarios de expertos internos y externos. Si las salvaguardias de ASL-3 se consideran suficientes, el despliegue y la capacitación por encima de los Umbrales de Capacidad pueden proceder después de una evaluación de capacidad de seguimiento.
¿Cuál es el propósito principal de la Evaluación de Capacidad de Seguimiento?
El propósito principal de la Evaluación de Capacidad de Seguimiento, según la Política de Escalado Responsable (RSP) de Anthropic, es confirmar que no son necesarias salvaguardas adicionales más allá de ASL-3 después de que se hayan actualizado las capacidades de un modelo para cumplir con las Salvaguardas Requeridas ASL-3.
Aquí está el desglose para profesionales de tecnología legal, oficiales de cumplimiento y analistas de políticas:
- Tras la actualización de un modelo de IA para cumplir con los estándares ASL-3, que ocurre cuando el modelo supera los umbrales de capacidad existentes, se inicia una evaluación de capacidad de seguimiento.
- Esta evaluación se lleva a cabo en paralelo con la implementación de las Salvaguardas Requeridas ASL-3.
- El objetivo es determinar si las capacidades del modelo están suficientemente por debajo de los umbrales de capacidad subsiguientes (aquellos que requerirían ASL-4) para asegurar que la protección de nivel ASL-3 sea realmente adecuada.
¿Cómo las medidas establecidas de Gobernanza y Transparencia tienen como objetivo promover la implementación eficaz y la comprensión pública de la Política de Escalado Responsable?
La Política de Escalado Responsable (PER) de Anthropic describe medidas de gobernanza interna y transparencia externa diseñadas para garantizar la implementación eficaz de la política y fomentar la comprensión pública de su enfoque de gestión de riesgos.
Medidas de Gobernanza Interna
Para garantizar que la PER se implemente eficazmente en toda la empresa, Anthropic se compromete a varias medidas de gobernanza interna:
- Responsable de Escalado Responsable: Mantener el puesto de Responsable de Escalado Responsable (RER), encargado de supervisar el diseño y la implementación de la PER. El RER propone actualizaciones de la política, aprueba las decisiones de entrenamiento/implementación de modelos, revisa los contratos importantes en busca de coherencia, supervisa la implementación y la asignación de recursos, aborda los informes de incumplimiento, notifica al consejo de administración el riesgo material e interpreta/aplica la política.
- Preparación ante Incidentes: Desarrollar procedimientos de seguridad internos para escenarios de incidentes, como la pausa del entrenamiento, la respuesta a incidentes de seguridad que involucren pesos del modelo y la gestión de jailbreaks graves. Esto incluye la realización de ejercicios para garantizar la preparación.
- Transparencia Interna: Compartir resúmenes de los Informes de Capacidades y los Informes de Salvaguardias con el personal de Anthropic, redactando información sensible. Una versión mínimamente redactada se comparte con un subconjunto del personal para consideraciones técnicas de seguridad.
- Revisión Interna: Solicitar comentarios de los equipos internos sobre los Informes de Capacidades y Salvaguardias para refinar la metodología e identificar las debilidades.
- Gestión del Incumplimiento: Establecer un proceso para la presentación anónima de informes de posible incumplimiento, proteger a los denunciantes de represalias y escalar los informes al Consejo de Administración. El incumplimiento se rastrea, investiga y aborda con acciones correctivas.
- Acuerdos con Empleados: Evitar las obligaciones contractuales de no menosprecio que puedan impedir que los empleados planteen preocupaciones de seguridad. Ninguno de estos acuerdos impedirá que se planteen preocupaciones de seguridad o se revele la existencia de la cláusula.
- Cambios en la Política: Los cambios en la PER son propuestos por el CEO y el RER y aprobados por el Consejo de Administración. La versión pública de la PER se actualiza antes de que entre en vigor cualquier cambio, con un registro de cambios que registra las diferencias.
Transparencia e Intervención Externa
Para promover el diálogo público sobre la regulación de los riesgos de la IA y permitir el examen de las acciones de Anthropic, la empresa se compromete a las siguientes medidas de transparencia:
- Divulgaciones Públicas: Publicar información clave relacionada con la evaluación e implementación de modelos, incluidos los resúmenes de los informes de capacidades y salvaguardias, los planes para futuras evaluaciones e información sobre los informes internos de incumplimiento. No se revelan los detalles sensibles.
- Aportaciones de Expertos: Solicitar la opinión de expertos externos durante las evaluaciones de capacidades y salvaguardias.
- Notificación al Gobierno: Notificar al Gobierno de los Estados Unidos si un modelo requiere protecciones más fuertes que el Estándar ASL-2.
- Revisión del Cumplimiento Procesal: Encargar revisiones anuales de terceros para evaluar el cumplimiento de los compromisos procesales de la PER.
A través de estas medidas, Anthropic busca lograr un equilibrio entre los controles internos y la rendición de cuentas externa, fomentando tanto una gestión eficaz de riesgos como un discurso público informado sobre la seguridad de la IA de vanguardia.