Gobernando los Riesgos de la IA: Enfoque Primero en la Seguridad de Anthropic

A medida que los sistemas de IA se vuelven cada vez más sofisticados, la necesidad de medidas de seguridad sólidas se vuelve primordial. Este trabajo explora las estrategias críticas empleadas para gobernar los riesgos asociados con el desarrollo avanzado de la IA. Profundiza en un sistema multifacético diseñado para evaluar, monitorear y mitigar cuidadosamente los peligros potenciales, asegurando que estas poderosas tecnologías se implementen de manera responsable. Comprender estos mecanismos de gobernanza de riesgos es esencial para navegar por el complejo panorama de la IA moderna y promover su integración segura y beneficiosa en la sociedad.

¿Qué medidas emplea Anthropic para la gobernanza del riesgo en el desarrollo e implementación de la IA?

La estrategia de gobernanza del riesgo de Anthropic se centra en un sistema por niveles llamado Estándares de Nivel de Seguridad de la IA (ASL, por sus siglas en inglés). Estos estándares son fundamentales para evaluar y mitigar los riesgos asociados con modelos de IA cada vez más capaces. El enfoque implica una combinación de medidas técnicas, operativas y políticas para garantizar el desarrollo y la implementación responsables de la IA.

Componentes Centrales de la Gobernanza del Riesgo de IA de Anthropic

  • Estándares de Nivel de Seguridad de la IA (Estándares ASL): Estos estándares se clasifican en Estándares de Implementación y Estándares de Seguridad. Los Estándares de Implementación se centran en el uso seguro por parte de usuarios internos y externos, mientras que los Estándares de Seguridad tienen como objetivo proteger los modelos de IA contra el acceso o el robo no autorizados. Todos los modelos actuales deben cumplir al menos con ASL-2.
  • Umbrales de Capacidad: Son niveles predefinidos de capacidad de IA que, al alcanzarse, activan la necesidad de estándares ASL más altos. Significan un aumento significativo en el riesgo que requiere salvaguardias actualizadas. Los Umbrales de Capacidad específicos incluyen preocupaciones relacionadas con armas Químicas, Biológicas, Radiológicas y Nucleares (QBRN), y la Investigación y el Desarrollo Autónomos de la IA (I+D de la IA).
  • Salvaguardias Requeridas: Representan las medidas específicas de seguridad necesarias para cada Umbral de Capacidad para mitigar los riesgos a niveles aceptables. Actúan como la implementación práctica de los Estándares ASL.
  • Evaluación de la Capacidad: Implica pruebas preliminares y exhaustivas para determinar si las capacidades de un modelo superan los Umbrales de Capacidad establecidos. Si se superan los umbrales, los modelos se actualizan a las Salvaguardias Requeridas ASL-3.
  • Evaluación de las Salvaguardias: Evalúa si las medidas implementadas satisfacen las Salvaguardias Requeridas ASL-3. Esto incluye red teaming, modelado de amenazas y el establecimiento de marcos de seguridad robustos.
  • Evaluación de la Capacidad de Seguimiento: Se lleva a cabo junto con la actualización de un modelo a las Salvaguardias Requeridas ASL-3 para garantizar que no sean necesarias salvaguardias adicionales.

Herramientas y Procesos Prácticos

Para determinar que el Estándar ASL-2 sigue siendo apropiado, Anthropic realiza comprobaciones de rutina en modelos nuevos y existentes, comenzando con una evaluación preliminar. Los aspectos clave de ese proceso incluyen:

  • Medir el rendimiento en pruebas automatizadas
  • Realizar un seguimiento del ajuste fino acumulativo desde la última evaluación exhaustiva.

Si estas comprobaciones se aprueban, no es necesario realizar más pruebas. Cuando se justifica un ciclo de pruebas más completo, la empresa realiza una evaluación más exhaustiva para garantizar que los riesgos permanezcan por debajo del umbral.

Gobernanza y Transparencia

El compromiso de Anthropic con la IA responsable se extiende a los procesos internos y la transparencia externa. Las medidas clave incluyen:

  • Oficial de Escalado Responsable: Un miembro del personal designado responsable de garantizar el diseño y la implementación efectivos de la Política de Escalado Responsable.
  • Procedimientos Internos de Seguridad: Desarrollo de procedimientos para escenarios de incidentes, como pausar el entrenamiento o responder a violaciones de seguridad.
  • Transparencia: Publicar información clave relacionada con la evaluación e implementación del modelo, incluidos los resúmenes de los Informes de Capacidad y Salvaguardias.
  • Aportación de Expertos: Solicitar activamente la aportación de expertos externos en dominios relevantes para informar las evaluaciones de capacidad y salvaguardias.
  • Supervisión del Consejo: Los cambios en su Política de Escalado Responsable son propuestos por el CEO y el Oficial de Escalado Responsable y aprobados por el Consejo de Administración, en consulta con el Fideicomiso de Beneficio a Largo Plazo.

Implicaciones Regulatorias y Políticas

Anthropic tiene la intención de que su Política de Escalado Responsable informe las mejores prácticas de la industria y potencialmente sirva como un prototipo para futuras regulaciones de IA. La política está diseñada para ser proporcional, iterativa y exportable, equilibrando la innovación con medidas de seguridad estrictas.

¿Qué normas de seguridad se implementan para el entrenamiento y la implementación de los modelos de IA de Anthropic?

Anthropic emplea un enfoque basado en el riesgo para la seguridad de la IA, utilizando los Estándares de Nivel de Seguridad de la IA (ASL). Estos estándares consisten en medidas técnicas y operativas diseñadas para garantizar el entrenamiento y la implementación seguros de modelos de IA de vanguardia.

Estándares ASL: Implementación y Seguridad

Actualmente, las definiciones de ASL se dividen en dos categorías:

  • Estándares de Implementación: Estos estándares incluyen medidas tomadas para asegurar que los modelos de IA se utilicen de manera segura mediante la alineación de controles técnicos, operativos y de políticas para mitigar el potencial uso indebido catastrófico tanto de usuarios externos (es decir, los usuarios y clientes de Anthropic) como de usuarios internos (es decir, los empleados de Anthropic).
  • Estándares de Seguridad: Estos estándares incluyen medidas técnicas, operativas y de políticas para proteger los modelos de IA contra el acceso no autorizado, el robo o el compromiso de los sistemas internos por parte de actores maliciosos.

Todos los modelos de Anthropic deben cumplir con los Estándares de Implementación y Seguridad ASL-2, que incluyen:

  • Publicar Model Cards que describan las capacidades, limitaciones, evaluaciones y casos de uso previstos del modelo.
  • Hacer cumplir una Política de Uso que restrinja los casos de uso catastróficos y de alto daño, como la generación de contenido que represente riesgos graves para la humanidad o cause daño directo a las personas.
  • Utilizar entrenamiento de inofensividad, como la IA Constitucional, y mecanismos de detección automatizados para entrenar a los modelos para que rechacen las solicitudes que ayuden a causar daño.
  • Proporcionar a los usuarios canales de informes de vulnerabilidades y una recompensa por errores para jailbreaks universales.
  • Adherencia a revisiones sólidas de seguridad de proveedores y suministradores, medidas de seguridad física, utilización de principios de seguridad por diseño e implementación de infraestructura de seguridad estándar, software de monitoreo, herramientas de gestión de acceso y cifrado de disco.

Desencadenamiento de Estándares Más Altos: Umbrales de Capacidad y Salvaguardias Requeridas

A medida que aumentan las capacidades de los modelos de IA, Anthropic utiliza un sistema de Umbrales de Capacidad y Salvaguardias Requeridas para determinar cuándo deben fortalecerse las medidas de seguridad. Un Umbral de Capacidad indica cuándo se necesita una mejora en las protecciones, desencadenando un cambio de un Estándar ASL-N a un Estándar ASL-N+1, o incluso superior. Las Salvaguardias Requeridas especifican entonces qué estándares ASL deben cumplirse. Las necesidades específicas de los diferentes modelos de IA variarán, por lo que no siempre es necesario actualizar simultáneamente los Estándares de Implementación y Seguridad.

Evaluación de las Capacidades del Modelo

Anthropic lleva a cabo evaluaciones rigurosas para determinar si las capacidades de un modelo superan los Umbrales de Capacidad establecidos. Esto implica:

  • Evaluaciones Preliminares: Estas evaluaciones se realizan para determinar si se necesita una evaluación más exhaustiva, y comparar los modelos basándose en Pruebas Automatizadas en Dominios Relevantes para el Riesgo y el impacto de los Métodos de Ajuste Fino.
  • Pruebas Exhaustivas: Si las evaluaciones preliminares indican que el modelo se acerca a una línea roja, estas pruebas evaluarán si es improbable que el modelo alcance algún Umbral de Capacidad relevante en ausencia de avances sorprendentes en mejoras de post-entrenamiento ampliamente accesibles. Estas pruebas deben satisfacer criterios tales como la Mapeo de Modelos de Amenazas, la realización de Evaluaciones Empíricas, la demostración de resultados de Elicitación limitados y la Previsión.

Si las pruebas exhaustivas revelan que es probable que un modelo supere un Umbral de Capacidad, Anthropic actuará como si se hubiera superado el umbral, actualizando a las Salvaguardias Requeridas ASL-3 y realizando un seguimiento para evaluar la necesidad de Estándares ASL-4.

Garantizar Salvaguardias Adecuadas: Requisitos ASL-3

Para cumplir con las Salvaguardias Requeridas ASL-3, Anthropic llevará a cabo una evaluación de salvaguardias para:

  • Evaluar si las medidas implementadas son robustas contra intentos persistentes de uso indebido de capacidades peligrosas mediante la realización de Modelado de Amenazas, la institución de Defensa en Profundidad, Red-Teaming, Remediación Rápida y el establecimiento de Monitoreo.
  • Asegurar que los modelos estén altamente protegidos contra la mayoría de los atacantes que intentan robar los pesos del modelo mediante el uso de Mejores Prácticas de Gobernanza, la aplicación de Marcos de Seguridad, la realización de Auditorías y la garantía de que las medidas puedan utilizarse en Entornos de Terceros.

Si las Salvaguardias Requeridas ASL-3 no pueden implementarse inmediatamente, se aplicarán medidas provisionales de mitigación de riesgos.

Gobernanza y Transparencia

Para facilitar la implementación efectiva de esta política en toda la empresa, Anthropic se ha comprometido a varias medidas internas de gobernanza:

  • Mantener el puesto de Oficial de Escalado Responsable, para supervisar el diseño e implementación efectivos de la política.
  • Establecer procesos para recibir notificaciones anónimas a través de las cuales el personal de Anthropic pueda notificar al Oficial de Escalado Responsable de posibles casos de incumplimiento.
  • Desarrollar procedimientos internos de seguridad para escenarios de incidentes.

Para avanzar en el diálogo público sobre la regulación de los riesgos de los modelos de IA de vanguardia y para permitir el examen de las acciones de Anthropic, la empresa se comprometerá a:

  • Publicar materiales clave, con la información sensible eliminada, relacionados con la evaluación e implementación de los modelos de IA.
  • Solicitar la opinión de expertos externos en los ámbitos pertinentes.

¿Cómo se utilizan los umbrales de capacidad para determinar la necesidad de protecciones mejoradas?

En el corazón de la gobernanza del riesgo de la IA se encuentra el concepto de «Umbrales de Capacidad». Estos umbrales actúan como desencadenantes cruciales, señalando cuándo las habilidades de un modelo de IA han alcanzado un punto en el que las salvaguardias existentes ya no son suficientes y deben mejorarse. Piense en ello como una línea roja en un motor: una vez cruzada, las medidas de protección más sólidas son esenciales.

Específicamente, un Umbral de Capacidad indica:

  • Un aumento significativo en el nivel de riesgo si el modelo permanece bajo las salvaguardias actuales.
  • Una necesidad correspondiente de mejorar las salvaguardias a un Estándar de Nivel de Seguridad de la IA (ASL) superior.

En la práctica, exceder un Umbral de Capacidad desencadena un cambio de un Estándar ASL-N a un Estándar ASL-N+1 (o, en algunos casos, directamente a un nivel aún más alto). La respuesta adecuada (como la implementación de salvaguardias ASL-3) está determinada por:

  • Evaluación de Capacidades: Los modelos se prueban rutinariamente para determinar qué tan cerca están de exceder los umbrales de capacidad predefinidos. Las evaluaciones preliminares determinan cuándo se necesitan pruebas más exhaustivas.
  • Mapeo de modelo de amenazas: Mapeo de los casos más probables.
  • Obtención y Evaluación: Demostración de que, cuando se dan suficientes recursos para extrapolar a atacantes realistas, los investigadores no pueden obtener resultados útiles del modelo en las tareas relevantes.
  • Salvaguardias Requeridas Correspondientes: Dependiendo del umbral excedido, las Salvaguardias Requeridas específicas describen qué Estándares ASL deben cumplirse. Es posible que no siempre sea necesario actualizar los Estándares de Implementación y Seguridad.

La identificación y aplicación de estos Umbrales de Capacidad son una piedra angular de la gestión proporcional del riesgo en el desarrollo de la IA. Al monitorear de cerca las capacidades del modelo y responder con las salvaguardias mejoradas apropiadas, los desarrolladores pretenden equilibrar la innovación con la seguridad, asegurando que la IA beneficie a la sociedad sin causar daños inaceptables.

¿Cuáles son las salvaguardias obligatorias designadas asociadas con varios umbrales de capacidad?

A medida que los modelos de IA evolucionan más allá de la línea base ASL-2, la industria reconoce que los umbrales de capacidad más altos exigen salvaguardias más sólidas. Un umbral de capacidad actúa como un disparador, señalando la necesidad de actualizar las protecciones a un nivel estándar de seguridad de la IA (ASL) más alto.

Puntos clave:

  • Las salvaguardias obligatorias están diseñadas para mitigar los riesgos a niveles aceptables, lo que indica un equilibrio entre los beneficios del desarrollo de modelos de frontera y los peligros potenciales.
  • Anthropic aboga por la adopción integral de estos estándares en toda la industria, enfatizando la importancia de invertir en investigación y desarrollo para una implementación sólida.

Armas QBRN

Las capacidades de desarrollo de armas químicas, biológicas, radiológicas y nucleares (QBRN) activan diferentes salvaguardias:

  • QBRN-3: La capacidad de ayudar significativamente a personas con conocimientos básicos de ciencia, tecnología, ingeniería y matemáticas (STEM) a crear/obtener y desplegar armas QBRN. Este disparador requiere tanto un estándar de implementación ASL-3 como un estándar de seguridad ASL-3, que protege contra el uso indebido y el robo de pesos de modelos por parte de actores no estatales.
  • QBRN-4: La capacidad de elevar sustancialmente las capacidades de desarrollo de QBRN de programas estatales con recursos moderados. Se espera que este umbral requiera estándares de implementación y seguridad ASL-4; se publicarán más detalles en una actualización futura.

Investigación y desarrollo autónomos de IA

Las capacidades autónomas de investigación y desarrollo de IA también activan salvaguardias específicas:

  • I+D de IA-4: La capacidad de automatizar completamente el trabajo de un investigador principiante, solo remoto, en Anthropic. Requiere el estándar de seguridad ASL-3 y un caso afirmativo que identifique y mitigue los riesgos inmediatos de los modelos que persiguen objetivos desalineados.
  • I+D de IA-5: La capacidad de causar una aceleración dramática en la tasa de demandas de escalamiento efectivas, como mínimo, el estándar de seguridad ASL-4 (potencialmente más alto) junto con un caso afirmativo.

El posible punto de control de Autonomía del modelo para realizar de forma autónoma una amplia gama de tareas de ingeniería de software de 2 a 8 horas activará la implementación de la seguridad ASL-3.

Consideraciones sobre operaciones cibernéticas:

La capacidad de mejorar o automatizar significativamente los ataques cibernéticos destructivos sofisticados se reconoce como una capacidad que requiere una investigación significativa. Esto implica la participación de expertos en ciberseguridad para evaluar el potencial de los modelos de frontera para mejorar y mitigar las ciberamenazas y para considerar controles de acceso escalonados o implementaciones graduales.

¿Cómo evalúa Anthropic las capacidades de sus modelos de IA?

Anthropic emplea un enfoque multicapa para evaluar las capacidades de sus modelos de IA, garantizando una ampliación responsable que se alinee con los riesgos potenciales. Su marco se centra en los Estándares de Nivel de Seguridad de la IA (Estándares ASL), donde el aumento de las capacidades del modelo exige medidas de seguridad más sólidas. La empresa realiza pruebas rutinarias de los modelos para comprobar si se sitúan muy por debajo de determinados umbrales de capacidad que permitan que el estándar ASL-2 siga siendo adecuado.

Umbrales de capacidad

Los umbrales de capacidad actúan como detonantes, indicando cuándo deben actualizarse las salvaguardias existentes a un estándar ASL superior. Estos umbrales son niveles de capacidad predeterminados que, si se alcanzan, significan un aumento significativo del riesgo, lo que requiere protecciones mejoradas. El enfoque de Anthropic se dirige específicamente a los riesgos catastróficos, como los relacionados con las armas químicas, biológicas, radiológicas y nucleares (QBRN) y la investigación y el desarrollo autónomos de la IA (I+D de la IA).

Procedimientos de evaluación

Anthropic utiliza un proceso de evaluación por etapas:

  • Evaluaciones preliminares: Estas evaluaciones iniciales determinan si un modelo requiere un análisis más profundo («evaluación exhaustiva»). Esto se activa si el modelo es «notablemente más capaz», lo que se define como: 1. notablemente más eficaz en las pruebas automatizadas en ámbitos relevantes para el riesgo (definido como 4 veces o más en Compute eficaz), o 2. Se han acumulado seis meses de ajuste fino y otros métodos de obtención de capacidad. Además, el responsable de la ampliación responsable puede determinar, a su discreción, que es necesario realizar una evaluación exhaustiva.
  • Evaluaciones exhaustivas: Para los modelos que superan los criterios de la evaluación preliminar, una evaluación exhaustiva valora la probabilidad de alcanzar los umbrales de capacidad. Este proceso implica:
    • Mapeo de modelos de amenazas: Presentar un caso convincente de que hemos trazado los modelos de amenazas más probables y consecuentes.
    • Evaluaciones: Diseñar y ejecutar pruebas empíricas que proporcionen pruebas sólidas de que el modelo no tiene las habilidades necesarias.
    • Obtención: Demostrar que, cuando se dan suficientes recursos para extrapolarlos a atacantes realistas, los investigadores no pueden obtener resultados suficientemente útiles del modelo en las tareas pertinentes.
    • Previsión: Realizar previsiones informales sobre la probabilidad de que una mayor formación y obtención mejoren los resultados de las pruebas entre el momento de la prueba y la siguiente ronda prevista de pruebas exhaustivas.

Toma de decisiones

Tras la evaluación exhaustiva, un Informe de Capacidad documenta las conclusiones y argumenta si el modelo permanece suficientemente por debajo de los Umbrales de Capacidad: El informe se eleva al Consejero Delegado y al Responsable de Escalado Responsable, quienes (1) toman la decisión final sobre si hemos establecido suficientemente que es poco probable que alcancemos el Umbral de Capacidad y (2) deciden cualquier cuestión relacionada con el despliegue. En general, como se indica en las secciones 7.1.4 y 7.2.2, solicitaremos la opinión de expertos internos y externos sobre el informe, así como las conclusiones del Consejero Delegado y del RSO, para informar sobre futuras mejoras en nuestra metodología.

Si se considera que el modelo ha superado un umbral, Anthropic pasa a las salvaguardias exigidas ASL-3 y realiza una evaluación de capacidad de seguimiento para garantizar que no sean necesarios los estándares ASL-4.

Transparencia y gobernanza

Anthropic hace hincapié en la transparencia mediante la publicación de materiales clave relacionados con la evaluación y el despliegue de sus modelos, tras eliminar la información sensible. La empresa también se compromete a adoptar medidas de gobernanza interna, como mantener un responsable de la ampliación responsable, establecer canales de denuncia anónimos para posibles incumplimientos y desarrollar procedimientos internos de seguridad para la respuesta a incidentes.

¿Qué procesos son esenciales para evaluar la eficacia de las salvaguardias implementadas?

Evaluar la eficacia de las salvaguardias implementadas es un proceso multifacético que implica una evaluación rigurosa y una mejora continua. Aquí está el desglose:

Evaluación de las Salvaguardias

Esta evaluación es clave para determinar si las medidas implementadas cumplen con las Salvaguardias Requeridas ASL-3. Un Informe de Salvaguardias documenta exhaustivamente la implementación de estas salvaguardias.

  • Evaluación del Estándar de Despliegue ASL-3: Evalúa la solidez contra intentos persistentes de uso indebido. Esto implica:
    • Modelado de Amenazas: Mapeo crítico de vectores potenciales de uso indebido catastrófico.
    • Defensa en Profundidad: Construcción de defensas en capas para detectar el uso indebido. Empleo de técnicas de rechazo de daños.
    • Red-Teaming: Demostrando que actores de amenazas realistas no pueden provocar consistentemente respuestas que aumenten su capacidad para causar daños catastróficos.
    • Remediación Rápida: Identificación y corrección rápidas de las vulneraciones del sistema.
    • Monitoreo: Revisión continua del rendimiento del sistema en relación con los rangos de riesgo aceptados. Monitoreo de respuestas a recompensas por jailbreak, realizando análisis históricos y monitoreo de antecedentes.
    • Usuarios de Confianza: Establecimiento de criterios para compartir modelos con salvaguardias reducidas con usuarios de confianza mediante el uso de una combinación de investigación de usuarios, controles de acceso seguros, monitoreo, retención de registros y protocolos de respuesta a incidentes.
    • Entornos de Terceros: Documentación de cómo todos los modelos cumplirán con estos criterios, incluso en implementaciones de terceros con diferentes salvaguardias.
  • Evaluación del Estándar de Seguridad ASL-3: Determina si las medidas están altamente protegidas contra el robo de pesos del modelo. Esto implica:
    • Modelado de Amenazas: Uso de marcos como MITRE ATT&CK para mapear amenazas, activos y vectores de ataque.
    • Alineación de Marcos de Seguridad: Uso de marcos de seguridad estándar de la industria para los riesgos identificados.
      • Construcción de perímetros y controles de acceso sólidos que garanticen la protección contra el acceso no autorizado. Esto incluye una combinación de seguridad física, cifrado, seguridad en la nube, política de infraestructura, administración de acceso y minimización y monitoreo del acceso al peso.
      • Protección de los enlaces en la cadena de sistemas y software utilizados para desarrollar modelos, para evitar que se introduzcan componentes comprometidos y para garantizar que solo se utilice código y hardware de confianza. Esto incluye una combinación de inventario de software, seguridad de la cadena de suministro, integridad de artefactos, autorización binaria, adquisición de hardware y ciclo de vida seguro del desarrollo de la investigación.
      • Identificación y mitigación proactivas de amenazas a través de un monitoreo continuo y eficaz, pruebas de vulnerabilidades y colocación de trampas para posibles atacantes. Esto incluye una combinación de aplicación de parches en los puntos finales, pruebas de seguridad del producto, administración de registros, monitoreo de activos y técnicas de engaño de intrusos.
      • Inversión de recursos suficientes en seguridad. El cumplimiento de este estándar de seguridad requiere que aproximadamente el 5-10% de los empleados se dediquen a la seguridad y al trabajo adyacente a la seguridad.
      • Alineación, cuando corresponda, con la guía existente sobre la seguridad de los pesos del modelo.
    • Auditorías: Auditoría del diseño e implementación del programa de seguridad, compartiendo los hallazgos con la administración. Esto incluye la validación independiente del modelado de amenazas y los resultados de la evaluación de riesgos; una auditoría basada en muestreo de la eficacia operativa de los controles definidos; y pruebas periódicas, de amplio alcance e independientes con red-teamers expertos que son reconocidos en la industria y han sido reconocidos en desafíos competitivos.
    • Entornos de Terceros: Documentación de cómo todos los modelos cumplirán con estos criterios, incluso en implementaciones de terceros con diferentes salvaguardias.

Proceso de Decisión de Salvaguardias

El proceso para determinar si se han cumplido las Salvaguardias Requeridas ASL-3 incluye:

  1. Compilación de un Informe de Salvaguardias para cada Salvaguardia Requerida. Presentación de un caso afirmativo para satisfacerlas.
  2. Elevación de los Informes de Salvaguardias al CEO y al Responsable de Escalado.
  3. Solicitud de comentarios de expertos internos y externos sobre el informe.
  4. Compartir la decisión, el Informe de Salvaguardias y los comentarios internos y externos con la Junta Directiva y el Fideicomiso de Beneficio a Largo Plazo.
  5. Revisitar y volver a aprobar las Salvaguardias Requeridas ASL-3 al menos anualmente.

Evaluación de la Capacidad de Seguimiento

Paralelamente a la actualización de un modelo a las Salvaguardias Requeridas, la política se actualiza para incluir cualquier Umbral de Capacidad adicional y se lleva a cabo una evaluación de la capacidad de seguimiento.

Gobernanza y Transparencia

La gobernanza interna involucra al Responsable de Escalado, que es responsable del diseño y la implementación de la política. La evaluación externa implica la colaboración con expertos externos en los dominios relevantes en el proceso de desarrollo y realización de evaluaciones de capacidad y salvaguardias. La empresa también busca una revisión del cumplimiento procesal y planea notificar a una entidad gubernamental de los EE. UU. relevante si un modelo requiere protecciones más sólidas que el Estándar ASL-2.

¿Cuál es el procedimiento para determinar las estrategias de implementación y los resultados de escalamiento adecuados para los modelos de Anthropic?

Anthropic emplea un proceso estructurado de múltiples etapas para determinar las estrategias de implementación y los resultados de escalamiento adecuados para sus modelos de IA. Este proceso está guiado por la Política de Escalado Responsable (RSP) y su dependencia de los Estándares de Nivel de Seguridad de la IA (ASL). El objetivo final es prevenir daños catastróficos y mitigar el riesgo a niveles aceptables, equilibrando la innovación con salvaguardas sólidas.

Evaluación de la capacidad

El primer paso implica una Evaluación de la Capacidad, que determina qué tan cerca están las capacidades de un modelo de los Umbrales de Capacidad establecidos. Estos umbrales señalan cuándo los riesgos potenciales de un modelo requieren salvaguardas actualizadas (por ejemplo, pasar de ASL-2 a ASL-3). El proceso de evaluación incluye:

  • Evaluación preliminar: Una verificación rápida para ver si el modelo es «notablemente más capaz» que los modelos anteriores. Las métricas aquí son pruebas automatizadas en «dominios relevantes para el riesgo» (mejora medida como 4x en Computación Efectiva) o la acumulación de mejoras posteriores al entrenamiento comparables a seis meses de refinamientos continuos.
  • Evaluación integral: Requerida si un modelo excede el umbral de «notablemente más capaz». Esta evaluación evalúa rigurosamente el potencial para alcanzar los Umbrales de Capacidad, observando las combinaciones de actores, las vías de ataque y lo que se requeriría para causar daño. Esto incluye:

    • Mapeo de modelos de amenazas para identificar modelos de amenazas consecuentes probables.
    • Pruebas empíricas para demostrar que el modelo no tiene la capacidad vinculada a los riesgos.
    • Ejercicios de obtención para determinar si los investigadores pueden obtener resultados útiles, incluso sin mecanismos de seguridad.
    • Previsión de cómo una mayor formación puede aumentar los resultados de las pruebas.
  • Informe de capacidad: Un documento detallado que recopila los hallazgos de la evaluación para argumentar que el Umbral de Capacidad está suficientemente lejos, y avanzar en las recomendaciones de implementación. Este documento, junto con la retroalimentación interna y externa, se envía al CEO de Anthropic y al Oficial de Escalado Responsable para una determinación final.

Si la evaluación integral demuestra que un modelo está suficientemente por debajo de un Umbral de Capacidad, puede continuar la implementación cumpliendo con el Estándar ASL-2. Sin embargo, si la evaluación sugiere que el modelo posiblemente ha superado un umbral, activa una actualización a las Salvaguardas Requeridas ASL-3 junto con una evaluación de capacidad de seguimiento para determinar si el Estándar ASL-4 es necesario.

Evaluación de salvaguardas

Si un modelo supera un Umbral de Capacidad, se inicia una Evaluación de Salvaguardas para garantizar una mitigación de riesgos adecuada comprobando si las medidas implementadas satisfacen las Salvaguardas Requeridas ASL-3. Este proceso incluye la elaboración de un Informe de Salvaguardas para documentar la evidencia de que el modelo cumple con los criterios de los estándares de umbrales:

  • Cumplir con los Estándares de implementación ASL-3 requiere «defensa en profundidad» utilizando capas para detectar ataques, pruebas de equipo rojo, remediación rápida y usuarios de confianza con controles de seguridad alternativos.
  • Cumplir con los Estándares de seguridad ASL-3 garantiza la protección del peso del modelo con controles de seguridad alineados con el marco, el modelado de amenazas utilizando el marco MITRE ATT&CK y los controles perimetrales y de acceso.

Si se encuentran vulnerabilidades, la implementación del modelo está restringida. De lo contrario, la implementación puede continuar.

Implementación y resultados de escalamiento

En última instancia, Anthropic puede proceder con la implementación y el escalamiento adicional si:

  • Las capacidades del modelo están lejos de los Umbrales de Capacidad existentes, de modo que su ASL-2 actual es apropiado.
  • El modelo ha superado los Umbrales de Capacidad pero cumple con las Salvaguardas Requeridas ASL-3.

Si un modelo requiere salvaguardas ASL-3 pero estas salvaguardas no se pueden implementar de manera oportuna, la política exige una acción rápida para reducir el riesgo provisional hasta que se implementen las medidas apropiadas. Se pueden imponer restricciones más estrictas, como la desactivación del modelo o la eliminación de los pesos del modelo, si la mitigación provisional del riesgo no es plausible. Además, se monitorean las actividades de preentrenamiento para detener los modelos de entrenamiento que se acercan o exceden las capacidades de los modelos que actualmente se están examinando en el nivel Estándar ASL-3 hasta que se implementen las salvaguardas adecuadas.

Gobernanza y transparencia

Se implementan medidas de gobernanza internamente en toda la empresa para garantizar el pleno cumplimiento de la Política de Escalado Responsable. Se busca información externa y la información clave relacionada con las pruebas de cada modelo a menudo se comparte públicamente, eliminando los detalles confidenciales.

¿Qué protocolos existen para abordar situaciones en las que las salvaguardas requeridas no pueden implementarse de inmediato?

Cuando un modelo alcanza un punto en el que se considera que se necesitan las Salvaguardas Requeridas ASL-3, pero estas salvaguardas no pueden implementarse de inmediato, Anthropic se compromete a un enfoque escalonado para la mitigación de riesgos. El objetivo es reducir el riesgo provisional a niveles aceptables hasta que las salvaguardas ASL-3 completas estén operativas:

Medidas Provisionales

El CEO y el Oficial de Escalamiento Responsable (RSO) pueden aprobar medidas provisionales que ofrezcan el mismo nivel de garantía que el Estándar ASL-3, pero que sean más rápidas o sencillas de implementar. Estos podrían incluir:

  • Bloquear las respuestas del modelo.
  • Degradar a un modelo menos capaz en áreas específicas.
  • Aumentar la sensibilidad de los sistemas de monitoreo automatizados.
  • Almacenar los pesos del modelo en una red aislada de propósito único que cumpla con el Estándar de Seguridad ASL-3.

Cualquier plan de este tipo se comparte con la Junta Directiva de Anthropic y el Long-Term Benefit Trust.

Restricciones Más Estrictas

Si las medidas provisionales son insuficientes para mitigar adecuadamente el riesgo, Anthropic implementará restricciones más estrictas, tales como:

  • Retirar el modelo y reemplazarlo con un modelo que caiga por debajo del Umbral de Capacidad. Una vez que se cumplan los requisitos del Estándar de Implementación ASL-3, el modelo puede volver a implementarse.
  • Eliminar los pesos del modelo en el contexto de seguridad. Anthropic cree que con el uso de medidas provisionales de implementación y protecciones de seguridad, rara vez debería haber necesidad de restricciones más estrictas.

Monitoreo del Preentrenamiento

Anthropic no entrenará modelos con capacidades comparables o mayores a las del modelo que requiere el Estándar de Seguridad ASL-3, operado como 1x o más en Computación Efectiva, hasta que se implemente el Estándar de Seguridad ASL-3. Si las capacidades del modelo de preentrenamiento son comparables o mayores, el entrenamiento se pausará hasta que se implementen las salvaguardas suficientes.

¿Qué estructuras internas de gobernanza respaldan la Política de Escalado Responsable?

Para implementar eficazmente la Política de Escalado Responsable (PER) en toda la organización, Anthropic se compromete a mantener varias medidas clave de gobernanza interna. Estas estructuras están diseñadas para garantizar el cumplimiento, la transparencia y la rendición de cuentas en el desarrollo y la implementación de modelos de IA.

Elementos Clave de Gobernanza

  • Responsable de Escalado Responsable (RER): Un miembro designado del personal es responsable de reducir los riesgos catastróficos asociados con los modelos de IA. Las funciones del RER incluyen proponer actualizaciones de políticas, aprobar decisiones de capacitación y despliegue de modelos basadas en evaluaciones de capacidad y salvaguardia, revisar los principales contratos para garantizar la coherencia de las políticas, supervisar la implementación de las políticas, abordar los informes de incumplimiento, notificar a la Junta Directiva sobre el incumplimiento material e interpretar la política.

  • Preparación ante Incidentes: Se desarrollan procedimientos internos de seguridad para escenarios de incidentes, como la pausa de la capacitación al alcanzar los umbrales de capacidad, la respuesta a incidentes de seguridad que involucran pesos del modelo y el abordaje de vulnerabilidades o jailbreaks graves en los modelos implementados. Se realizan ejercicios para garantizar la preparación ante estos escenarios.

  • Transparencia Interna: Se comparten resúmenes de los Informes de Capacidad y los Informes de Salvaguardias con el personal de autorización regular, con la información altamente confidencial redactada. Se comparte una versión mínimamente redactada con un subconjunto del personal para que surjan consideraciones relevantes de seguridad técnica.

  • Revisión Interna: Se solicitan comentarios de los equipos internos sobre los Informes de Capacidades y Salvaguardias para perfeccionar las metodologías e identificar las debilidades.

  • Procedimientos de Incumplimiento: Se mantiene un proceso para que el personal de Anthropic denuncie de forma anónima posibles casos de incumplimiento de la PER. La política de denuncia de incumplimiento protege a los denunciantes de represalias, establece un mecanismo para escalar los informes a la Junta Directiva y exige el rastreo, la investigación y la acción correctiva para los informes fundamentados. El RER actualiza periódicamente a la Junta Directiva sobre los casos sustanciales de incumplimiento y las tendencias generales.

  • Acuerdos con Empleados: No se imponen obligaciones contractuales de no menosprecio a los empleados, candidatos o antiguos empleados de una manera que impida o desaliente a los miembros del personal a plantear públicamente preocupaciones de seguridad sobre Anthropic. Los acuerdos con cláusulas de no menosprecio no impedirán plantear las preocupaciones de seguridad ni revelar la existencia de la cláusula.

  • Cambios en la Política: Los cambios en la PER son propuestos por el CEO y el RER y aprobados por la Junta Directiva, en consulta con el Fideicomiso de Beneficio a Largo Plazo (FBLP). La versión actual de la PER está accesible en línea, con las actualizaciones que se hacen públicas antes de que los cambios entren en vigor, junto con un registro de cambios.

¿Cómo se asegura Anthropic de la transparencia y recaba la opinión externa sobre sus prácticas de seguridad de la IA?

Anthropic tiene como objetivo promover el diálogo público sobre la regulación de la IA y garantizar que las partes interesadas puedan examinar sus acciones a través de varias medidas clave:

Divulgaciones Públicas

La empresa se compromete a divulgar públicamente información clave sobre la evaluación y el despliegue de sus modelos de IA. Esto excluye los detalles sensibles, pero incluye resúmenes de los informes de Capacidades y Salvaguardias cuando se despliega un modelo. Estos informes detallan las medidas de seguridad que se tomaron. Anthropic también revelará los planes para las evaluaciones integrales de capacidades actuales y futuras, así como las salvaguardias de despliegue y seguridad. La empresa tiene la intención de publicar periódicamente información sobre los informes internos de posibles incidentes de incumplimiento y otros desafíos de implementación que encuentre.

Aportación de Expertos

Anthropic solicitará la opinión de expertos externos durante el desarrollo de las evaluaciones de capacidades y salvaguardias. Este proceso de consulta también puede extenderse antes de la toma de decisiones finales sobre esas evaluaciones.

Notificación al Gobierno de EE. UU.

La política exige notificar a una entidad gubernamental estadounidense pertinente si un modelo necesita protecciones más fuertes que el Estándar ASL-2.

Revisión de Cumplimiento del Procedimiento

Aproximadamente cada año, Anthropic encarga una revisión por parte de terceros para evaluar si la empresa se ha adherido a los principales compromisos de procedimiento de la política. Estas revisiones se centran específicamente en la adhesión a los requisitos del plan en lugar de tratar de juzgar los resultados obtenidos. Anthropic también realiza el mismo tipo de revisiones internamente de forma más regular.

Comunicación Pública

Anthropic mantiene una página pública (www.anthropic.com/rsp-updates) para proporcionar resúmenes de informes anteriores de capacidades y salvaguardias, actualizaciones relacionadas con RSP y planes para el futuro. La página proporciona detalles para facilitar las conversaciones sobre las mejores prácticas de la industria para las salvaguardias, las evaluaciones de capacidades y la obtención de respuestas.

Gobernanza y Transparencia

La Política de Escalado Responsable (PER) de Anthropic enfatiza tanto la gobernanza interna como la transparencia externa. Se han implementado medidas clave para garantizar la implementación de la política, promover la rendición de cuentas y fomentar la colaboración.

Gobernanza Interna:

  • Oficial de Escalado Responsable (OER): Un miembro designado del personal supervisa la reducción de riesgos asegurando el diseño y la implementación efectivos de la PER. Los deberes del OER incluyen actualizaciones de políticas, aprobaciones de decisiones, revisiones de contratos, asignación de recursos y manejo de informes de incumplimiento.
  • Preparación: Anthropic ha desarrollado procedimientos de seguridad internos para escenarios de incidentes, que incluyen la pausa del entrenamiento, la respuesta a violaciones de seguridad y el abordaje de vulnerabilidades del modelo.
  • Transparencia: Los resúmenes de los Informes de Capacidad y los Informes de Salvaguardias se comparten internamente para promover la conciencia y facilitar las consideraciones técnicas de seguridad.
  • Revisión Interna: Se solicitan comentarios de los equipos internos sobre los Informes de Capacidad y Salvaguardias para refinar las metodologías e identificar las debilidades.
  • Incumplimiento: Un proceso permite al personal informar de forma anónima el incumplimiento de la política al OER. Una política protege a los reporteros de represalias y establece mecanismos de escalamiento. Todos los informes son rastreados, investigados y abordados con acciones correctivas.
  • Acuerdos con los empleados: Las obligaciones contractuales de no menosprecio se construyen para no impedir o desalentar a los empleados a expresar inquietudes de seguridad sobre Anthropic.
  • Cambios en la Política: Los cambios a esta política sólo son implementados por el CEO y el Oficial de Escalado Responsable, según lo aprobado por la Junta Directiva, en consulta con el Fideicomiso de Beneficio a Largo Plazo.

Transparencia y Aportes Externos:

  • Divulgaciones Públicas: Se publica información clave sobre la evaluación y el despliegue del modelo, incluidos los resúmenes de los Informes de Capacidad y Salvaguardias, los planes para las evaluaciones y los detalles sobre las salvaguardias, sujetos a la redacción de información sensible.
  • Aportes de Expertos: Se consulta a expertos externos durante las evaluaciones de capacidad y salvaguardia y los procesos finales de toma de decisiones.
  • Aviso al Gobierno de EE. UU.: Se notificará a una entidad relevante del Gobierno de EE. UU. si un modelo requiere más protecciones que ASL-2.
  • Revisión de Cumplimiento Procesal: Aproximadamente de forma anual, y más regularmente internamente, un tercero se centra en si se siguen las políticas, no en cómo se resolvieron los problemas.
En última instancia, el enfoque escalonado de Anthropic para la seguridad de la IA busca navegar por el complejo panorama de las capacidades de la IA que avanzan rápidamente. Al identificar proactivamente los umbrales de riesgo, evaluar rigurosamente las capacidades del modelo y adaptar las salvaguardas en consecuencia, surge una estrategia proporcional, diseñada para fomentar la innovación al tiempo que se mitigan los posibles daños de forma simultánea. El compromiso con el gobierno interno y la transparencia externa subraya una dedicación al desarrollo responsable de la IA y la búsqueda continua de las mejores prácticas para el beneficio de la sociedad.

More Insights

Carrera Armamentista de IA y el Impacto de los Aranceles en la Innovación

Los aranceles pueden tener un impacto multifacético en el avance de la inteligencia artificial (IA) y la automatización, actuando como un posible obstáculo y, paradójicamente, un posible catalizador...

Plan de Acción de la Comisión Europea para la Soberanía en IA

La Comisión Europea ha lanzado su Plan de Acción para la IA, una estrategia integral destinada a establecer a Europa como líder global en inteligencia artificial. El plan se centra en aumentar la...

El Dilema del AI: Innovación y Regulación en Singapur

Singapur se prepara para celebrar seis décadas de progreso, mientras lanza su ambicioso Estrategia Nacional de IA 2.0, que se centra en la innovación y regulación de la inteligencia artificial. Sin...

IA Responsable en el Sector FinTech

Lexy Kassan discute los aspectos críticos de la inteligencia artificial responsable, centrándose en actualizaciones regulatorias como la Ley de IA de la UE y sus implicaciones para FinTech. Explica...

IA Centrada en el Humano: Hacia un Futuro Ético y Responsable

La inteligencia artificial centrada en el ser humano (HCAI) se refiere al desarrollo de sistemas de IA que priorizan los valores humanos y la colaboración entre humanos y máquinas. Este enfoque ético...

La Regulación de la IA en la UE: Un Cambio Decisivo

El Acta de Inteligencia Artificial de la UE establece un marco regulatorio uniforme para todos los estados miembros, buscando equilibrar la innovación con la seguridad de los ciudadanos. Se trata de...

Actualización de las Cláusulas Contractuales Modelos de IA de la UE

La Comunidad de Práctica de la UE sobre la Contratación Pública de IA ha publicado una versión actualizada de sus Cláusulas Contractuales Modelo de IA (MCC-AI) el 5 de marzo de 2025. Estas cláusulas...

Impacto de la Ley de IA de la UE en Sistemas de Reconocimiento Emocional en el Trabajo

La inteligencia artificial de reconocimiento emocional (Emotion AI) utiliza datos biométricos y otros conjuntos de datos para identificar y analizar emociones. Desde la entrada en vigor de la Ley de...