¿Cuál es el propósito y el alcance general del estudio?
Este documento presenta un análisis de los elementos comunes encontrados en doce políticas de seguridad de la IA de frontera publicadas actualmente. Estas políticas, establecidas por empresas líderes en IA, son protocolos diseñados para mitigar los riesgos asociados con el desarrollo e implementación de modelos de IA de vanguardia, con el objetivo de mantener estos riesgos en un nivel aceptable. Este análisis se basa en trabajos anteriores, investigando si las nueve políticas adicionales publicadas más allá del conjunto inicial de Anthropic, OpenAI y Google DeepMind incorporan los mismos componentes clave identificados inicialmente. En última instancia, el informe busca ofrecer información sobre las mejores prácticas actuales para gestionar los riesgos graves de la IA mediante el análisis de estos elementos compartidos dentro del contexto de la información de fondo y extractos de políticas reales. El estudio tiene como objetivo fomentar una comprensión más profunda de cómo la industria de la IA aborda la tarea crítica de garantizar el avance seguro y responsable de la tecnología de IA de frontera.
El alcance del estudio abarca un examen detallado de varios componentes críticos que se encuentran en las políticas de seguridad. Estos componentes incluyen umbrales de capacidad que definen los puntos en los que las capacidades específicas de la IA plantearían riesgos graves y harían necesarias nuevas estrategias de mitigación. También se examina la seguridad del peso del modelo, específicamente las medidas de seguridad de la información destinadas a prevenir el acceso no autorizado a los pesos del modelo. El estudio investiga además las mitigaciones de la implementación del modelo: medidas de acceso y a nivel de modelo diseñadas para prevenir el uso indebido de capacidades peligrosas de la IA. También se analizan las condiciones para detener los planes de despliegue y desarrollo, centrándose en los compromisos de las empresas de cesar la actividad si surgen capacidades preocupantes de la IA antes de que existan mitigaciones adecuadas. También se investiga la exhaustividad de la obtención de capacidades durante las evaluaciones del modelo, junto con el momento y la frecuencia especificados de estas evaluaciones. Finalmente, el estudio profundiza en los mecanismos de rendición de cuentas, específicamente los mecanismos de supervisión internos y externos destinados a fomentar la ejecución adecuada de las políticas de seguridad, y la intención declarada de actualizar las políticas a lo largo del tiempo a medida que evoluciona la comprensión de los riesgos de la IA.
Matices de la política
Si bien tiene como objetivo una visión integral de los elementos comunes, el estudio también reconoce los enfoques y diferencias únicos que se encuentran en cada política de seguridad individual. Ciertas políticas enfatizan los riesgos específicos del dominio, como el enfoque de Nvidia y Cohere en aplicaciones específicas, en lugar de centrarse únicamente en el potencial de daño catastrófico. Del mismo modo, el estudio reconoce los matices en los diferentes métodos de evaluación, donde algunas políticas se basan en gran medida en puntos de referencia cuantitativos, mientras que otras priorizan las evaluaciones cualitativas. Al reconocer estas variaciones, el análisis presenta una comprensión holística de las diversas estrategias empleadas por los desarrolladores de IA, brindando información valiosa sobre el estado actual de las prácticas de seguridad en el ámbito de la IA de frontera.
¿Cuál es la necesidad de describir los componentes comunes de las políticas de seguridad de IA?
La proliferación de políticas de seguridad de IA de frontera entre los principales desarrolladores de IA subraya un reconocimiento compartido de los riesgos potenciales asociados con modelos de IA cada vez más capaces. Describir los componentes comunes de estas políticas es un paso crucial para fomentar una comprensión colectiva del estado actual de la gestión de riesgos de la IA. Mediante la identificación de los elementos compartidos, como los umbrales de capacidad, la seguridad del peso del modelo, las mitigaciones de despliegue y las estrategias de evaluación, podemos comenzar a establecer una base para el desarrollo y la implementación responsables de la IA. Esta comprensión permite a las partes interesadas, incluidos los legisladores, los investigadores y el público, evaluar críticamente la exhaustividad y el rigor de las políticas individuales e identificar las lagunas o áreas donde se necesita mayor refinamiento. Dicho análisis comparativo puede informar significativamente el diálogo en curso sobre la seguridad de la IA y ayudar a impulsar el desarrollo de medidas de seguridad más sólidas y eficaces.
Por qué importa un lenguaje común.
Además, una articulación clara de los componentes comunes ayuda a promover la coherencia y la interoperabilidad entre los diferentes esfuerzos de desarrollo de la IA. Si bien cada política puede reflejar un enfoque único para la gestión de riesgos de la IA, un vocabulario compartido y una comprensión de los conceptos básicos pueden facilitar la colaboración y el intercambio de conocimientos entre los desarrolladores. Esto es particularmente importante dada la naturaleza global de la investigación de la IA y la necesidad de una acción coordinada para abordar los riesgos potenciales. Un marco estandarizado permite una comparación más clara de los diferentes enfoques, destacando las mejores prácticas y facilitando la adopción de estrategias de mitigación de riesgos más eficaces en toda la industria. Evita la reinvención y facilita el uso de los resultados de diferentes organizaciones.
Finalmente, documentar y difundir estos componentes comunes proporciona un valioso recurso para las organizaciones que recién están comenzando a formular sus propias políticas de seguridad de la IA. Al proporcionar una descripción clara de los elementos esenciales, reduce la barrera de entrada para las organizaciones que buscan adoptar prácticas responsables de desarrollo de la IA. Esto es especialmente importante para las organizaciones más pequeñas o con menos recursos que pueden no tener la experiencia o los recursos para desarrollar políticas integrales desde cero. Proporcionar una estructura bien definida, que incluya elementos comunes y una justificación, asegura que la industria evolucione hacia prácticas de desarrollo más seguras en general.
¿Qué criterios definen los riesgos potencialmente graves relacionados con los modelos de IA?
El análisis de las políticas de seguridad de la IA de frontera revela que varios criterios se utilizan de manera consistente para definir los riesgos potencialmente graves asociados con estos modelos avanzados. Estos criterios generalmente giran en torno a las capacidades de los propios modelos, específicamente su potencial de uso indebido y el impacto resultante. Un elemento clave es el establecimiento de *umbrales de capacidad*, que significan niveles específicos de funcionalidad de la IA que, si se alcanzan, representarían un riesgo significativo y requerirían la implementación de estrategias de mitigación robustas. Estos umbrales a menudo se comparan con modelos de amenaza plausibles, que describen escenarios prospectivos donde la IA podría ser explotada para causar un daño considerable. Por ejemplo, exceder un umbral de capacidad predefinido en un dominio biológico podría indicar el potencial de la IA para facilitar el desarrollo de armas biológicas, lo que desencadenaría protocolos de seguridad estrictos.
Además, estas políticas de seguridad comúnmente enfatizan la importancia de los modelos de amenaza para determinar los umbrales de capacidad. Estos comúnmente incluyen la asistencia en el desarrollo de armas biológicas, la orquestación o mejora de ciberdelitos y la automatización de la investigación y el desarrollo de la IA, lo que podría acelerar la proliferación de capacidades de IA potencialmente peligrosas. Las evaluaciones de estos modelos están frecuentemente diseñadas para considerar las capacidades habilitadoras, como la investigación y el desarrollo automatizados de la IA, el uso de herramientas o la ingeniería de prompts, que podrían aumentar los posibles casos de uso indebido más allá de las capacidades del modelo base. Esto incluye la evaluación del dominio del modelo en tareas específicas relevantes para estos modelos de amenaza, teniendo en cuenta las posibles mejoras posteriores al entrenamiento, como el ajuste fino, la ejecución de código, el uso de herramientas o la búsqueda en la web para garantizar que la evaluación capture todo el potencial del modelo.
Metodologías de Evaluación de Riesgos
Otro aspecto crucial para definir los riesgos potencialmente graves es la evaluación y el monitoreo continuos de los modelos de IA a lo largo de su ciclo de vida. Esto implica no solo evaluaciones previas a la implementación, sino también evaluaciones continuas durante el entrenamiento y el monitoreo posterior a la implementación para detectar cualquier capacidad o vulnerabilidad emergente. La frecuencia y la intensidad de estas evaluaciones a menudo están determinadas por la tasa de progreso en las capacidades del modelo, con evaluaciones más frecuentes desencadenadas por avances significativos o avances algorítmicos. El establecimiento de indicadores precisos y umbrales de alerta, que se revisan y actualizan regularmente en función de la evolución de los riesgos y los avances en la mitigación, es un elemento crucial para definir un riesgo potencialmente mayor que impulse un mayor enfoque en la identificación y el abordaje de capacidades potencialmente peligrosas. Este enfoque proactivo garantiza que los riesgos potenciales se identifiquen y aborden con prontitud, evitando la implementación antes de que se implementen las salvaguardias apropiadas y deteniendo el desarrollo si no se pueden implementar las medidas de seguridad necesarias.
¿Qué medidas se toman para prevenir el acceso no autorizado a los pesos del modelo?
Un componente crítico de las políticas de seguridad de la IA de frontera involucra medidas robustas diseñadas para prevenir el acceso no autorizado a los pesos del modelo. El consenso entre las políticas examinadas es que, a medida que los modelos de IA desarrollan capacidades preocupantes, son esenciales medidas de seguridad de la información progresivamente más fuertes para prevenir tanto el robo como las liberaciones no intencionales. Este énfasis proviene del reconocimiento de que los actores maliciosos que adquieren los pesos del modelo podrían utilizarlos indebidamente para infligir daños severos. La sofisticación de los potenciales actores de amenazas varía, abarcando desde hackers oportunistas hasta operaciones de estados-nación con muchos recursos, lo que necesita un enfoque multicapa para los protocolos de seguridad.
Medidas de Seguridad Escalonadas
Las medidas de seguridad específicas generalmente se implementan en niveles escalonados, acordes con las capacidades de un modelo y el riesgo percibido. Estos niveles a menudo se alinean con los marcos existentes que proporcionan niveles de controles de seguridad recomendados. Por ejemplo, los controles específicos podrían incluir restricciones de acceso estrictas, registro y monitorización mejorados, controles de seguridad perimetral avanzados, sistemas de detección y respuesta de endpoints, y la aplicación de autenticación multifactor en todo el entorno de desarrollo. A menudo se utiliza el red-teaming de seguridad avanzado para simular ataques, probando la robustez de las salvaguardias existentes. Las medidas de protección de datos, como el cifrado y el uso de tokens de seguridad de hardware, también son comunes para salvaguardar los datos del modelo y los puntos de control intermedios. Muchas políticas enfatizan la importancia de la compartimentación interna para restringir el acceso a los entornos de entrenamiento de LLM, el código y los parámetros solo al personal autorizado con los niveles de autorización apropiados. Los pesos del modelo a menudo se almacenan en redes aisladas que cumplen con estrictos requisitos de seguridad.
Varios desarrolladores de IA hacen referencia al informe de RAND Corporation, «Securing AI Model Weights». Las empresas adoptan los principios descritos en ese marco, con orientación específica sobre el nivel de seguridad recomendado para modelos con ciertas capacidades. Se pone énfasis en el cumplimiento de los marcos y prácticas de seguridad estándar de la industria, como el marco MITRE ATT&CK, y las mejores prácticas de gobernanza de riesgos. Además, estas políticas tienen como objetivo garantizar niveles equivalentes de garantía incluso cuando los modelos se implementan en entornos de terceros con salvaguardias de seguridad potencialmente diferentes. Si no se pueden implementar mitigaciones adecuadas con prontitud, las políticas dictan la pausa del desarrollo del modelo para evitar la progresión de capacidades potencialmente dañinas sin un entorno seguro implementado. La efectividad de las mitigaciones de implementación se basa en que los modelos permanezcan de forma segura en posesión de los desarrolladores autorizados, lo que enfatiza la importancia de las medidas de seguridad de la información. El objetivo primordial es salvaguardar estos poderosos sistemas de IA del posible mal uso por parte de entidades hostiles que podrían buscar explotar sus funciones avanzadas con fines nefastos.
¿Qué estrategias de implementación se emplean para reducir los riesgos de las capacidades peligrosas de la IA?
Las políticas de seguridad de la IA de frontera enfatizan un enfoque estratificado para mitigar los riesgos asociados con la implementación. Estas estrategias abarcan una variedad de técnicas, desde entrenar modelos para rechazar solicitudes dañinas hasta monitoreo de salida más sofisticado y entrenamiento adversarial. El principio subyacente es que las medidas de protección deben escalar proporcionalmente con el daño potencial que un modelo podría causar. A medida que los modelos se vuelven más potentes y capaces, inevitablemente atraen intentos más decididos y con más recursos para eludir las restricciones o explotar sus habilidades. Por lo tanto, los métodos iniciales, como el rechazo básico de daños, se complementan con equipos rojos expertos y automatizados para identificar y abordar posibles vulnerabilidades antes de la implementación. El monitoreo continuo posterior a la implementación también es crucial para detectar y remediar cualquier compromiso o jailbreak que pueda surgir.
Muchas políticas de seguridad de la IA de frontera incorporan estrategias específicas de mitigación de la implementación basadas en umbrales de capacidad claramente definidos. Al alcanzar un umbral crítico, se activan varias medidas, que a menudo implican una combinación de estrategias de contención y reducción de riesgos. Estos podrían incluir limitar severamente el acceso a un modelo o sus funcionalidades, implementar el modelo solo dentro de entornos altamente restringidos y aumentar significativamente la prioridad de los controles de información y ciberseguridad. Algunas empresas utilizan técnicas como el ajuste fino de los modelos para rechazar consultas dañinas, el empleo de clasificadores de seguridad de salida y la implementación de monitoreo continuo para detectar y abordar el uso indebido de un modelo. Además, muchos reconocen la necesidad de una remediación rápida, a través de parches de vulnerabilidad rápidos, la escalada a las fuerzas del orden cuando sea necesario y la estricta retención de registros. En última instancia, muchos se comprometen a no implementar modelos de frontera si superan los umbrales de riesgo predefinidos hasta que se encuentren salvaguardas apropiadas y sean demostrablemente efectivas.
Tácticas Específicas para Modelos de Alto Riesgo
Para los modelos que exhiben un potencial significativo de uso indebido, las estrategias de implementación a menudo implican el establecimiento de criterios para compartir versiones del modelo con salvaguardas reducidas con un grupo selecto de usuarios de confianza. Estos usuarios generalmente están sujetos a procesos de investigación rigurosos, controles de acceso seguros, monitoreo cercano, políticas estrictas de retención de registros y protocolos de respuesta a incidentes bien definidos. Además, los marcos de trabajo describen las condiciones para detener los planes de implementación por completo si no existen mitigaciones suficientes. Por ejemplo, si un modelo de IA demuestra capacidades potencialmente peligrosas antes de que se puedan implementar las salvaguardas necesarias, se suspende la implementación adicional hasta que esas medidas de seguridad estén efectivamente implementadas y sean demostrablemente robustas. Cada uno de estos métodos se combina para reducir drásticamente el riesgo de un modelo durante la implementación.
¿Cuáles son las condiciones para restringir los planes de desarrollo de modelos?
Las políticas de seguridad de la IA de frontera reconocen que existen circunstancias en las que el desarrollo continuo de modelos plantea riesgos inaceptables, lo que exige detener cualquier avance. Esta sección explora las condiciones que desencadenan compromisos para restringir o pausar los planes de desarrollo de modelos. Estas condiciones generalmente están vinculadas a la aparición de capacidades específicas de la IA que plantean serias preocupaciones sobre el posible uso indebido, junto con la incapacidad de mitigar adecuadamente esos riesgos a través de medidas de seguridad u otras garantías. El principio fundamental que subyace a estas condiciones es la necesidad de evitar un mayor avance de los modelos que podrían causar daños catastróficos si sus capacidades superan el desarrollo e implementación de medidas de protección suficientes.
Una condición principal para detener el desarrollo se centra en situaciones en las que un modelo cruza umbrales de capacidad predefinidos relacionados con el potencial peligroso. Por ejemplo, si un modelo demuestra una marcada capacidad para facilitar el desarrollo de armas biológicas o ejecutar ciberataques complejos, y los protocolos de seguridad correspondientes para evitar el robo del peso del modelo se consideran insuficientes, el desarrollo se pausará. Otro desencadenante implica la identificación de una desalineación significativa del modelo durante el proceso de entrenamiento, incluso si el despliegue externo no es inminente. Esto requiere un cese inmediato del desarrollo para abordar los problemas centrales de alineación antes de que se cultiven más capacidades. La determinación de si son posibles mitigaciones adecuadas a menudo implica un proceso de evaluación riguroso.
Determinar la Suficiencia de las Mitigaciones
La determinación de si se pueden implementar mitigaciones adecuadas es un juicio caso por caso, pero se pueden extraer algunos principios rectores de cómo se aborda en las políticas de seguridad existentes. Con frecuencia requiere una reevaluación de los protocolos de seguridad planificados actuales para decidir si el aumento demostrado en la capacidad también representa un mayor riesgo. Además, el desarrollo de mejoras de seguridad (no el desarrollo de capacidades) puede continuar durante la pausa. Tal acción podría incluir el desarrollo específico, como el ajuste fino o el entrenamiento en seguridad. En última instancia, las políticas reflejan un compromiso de priorizar la seguridad, reconociendo que el rápido avance de las capacidades de la IA debe gestionarse cuidadosamente para evitar consecuencias no deseadas y potencialmente devastadoras.
¿Cómo puede el análisis de las capacidades completas del modelo mejorar el proceso de evaluación?
Analizar el rango completo de las capacidades de un modelo, en lugar de centrarse únicamente en las funcionalidades esperadas o previstas, mejora significativamente el proceso de evaluación al revelar los riesgos potenciales asociados con el uso indebido o las consecuencias no deseadas. Ignorar las capacidades completas puede llevar a una subestimación grave del verdadero perfil de riesgo, ya que las capacidades pueden surgir de maneras inesperadas, especialmente a través de técnicas como la ingeniería de prompts, el ajuste fino o el uso de herramientas externas. Al intentar activamente obtener las capacidades de un modelo, incluidos los escenarios en los que podría usarse de forma maliciosa, los evaluadores pueden obtener una comprensión más realista del daño potencial que podría causar. Este enfoque integral para el descubrimiento de capacidades proporciona una base más sólida para desarrollar medidas de seguridad específicas y estrategias de mitigación.
Además, comprender las capacidades completas de un modelo permite un desarrollo de mitigación más proactivo. Cuando las evaluaciones consideran posibles áreas de uso indebido, los desarrolladores pueden diseñar salvaguardias que se dirijan específicamente a estas vulnerabilidades antes de que sean explotadas. Por ejemplo, evaluar la capacidad de un modelo para ayudar en ataques cibernéticos permite la implementación de defensas que eviten que el modelo genere código malicioso o identifique vulnerabilidades. De manera similar, comprender el potencial de un modelo para automatizar la investigación de IA permite una monitorización proactiva y salvaguardias para prevenir prácticas de desarrollo inseguras. Este enfoque prospectivo asegura que las medidas de seguridad estén alineadas con el impacto potencial del modelo, reduciendo la probabilidad de resultados dañinos.
Mejorar la Robustez a través de la Obtención de Capacidades
El proceso de obtención de las capacidades completas del modelo también fortalece inherentemente las pruebas de robustez. Al someter al modelo a pruebas de estrés con prompts desafiantes, entradas adversarias, simular conocimiento avanzado a través del ajuste fino e incorporar el uso potencial de herramientas, los desarrolladores pueden identificar debilidades en las medidas de seguridad existentes y refinarlas en consecuencia. Este proceso de evaluación robusto asegura que los mecanismos de seguridad sean menos susceptibles a la elusión, ya que las posibles debilidades ya han sido identificadas y abordadas durante la fase de evaluación. Además, esto proporciona la capacidad de crear un modelo de amenazas más completo y detallado. La información producida a partir de la obtención de capacidades ayuda a los desarrolladores a construir los caminos que los actores maliciosos podrían tomar, y proporciona información sobre las salvaguardias más adecuadas para detenerlos.
¿Cómo establecen estas políticas los mecanismos de supervisión en el contexto de la IA de frontera?
Las políticas de seguridad de la IA de frontera comúnmente incorporan mecanismos de rendición de cuentas, diseñados para asegurar la correcta ejecución de los estándares delineados dentro de cada marco. Estos mecanismos tienen como objetivo fomentar tanto la gobernanza interna como el compromiso externo. La gobernanza interna frecuentemente involucra la designación de roles y responsabilidades específicas para supervisar la implementación de las políticas de seguridad. Dicha supervisión puede ser manejada por individuos especializados, como un «Oficial de Escalado Responsable», equipos internos o cuerpos gobernantes que están encargados de monitorear la adherencia a las políticas y evaluar los riesgos asociados. El cumplimiento se refuerza aún más a través de procedimientos internos de seguridad para escenarios de incidentes relevantes, planes de comunicación claros entre diferentes equipos, revisiones internas y el establecimiento de procesos para reportar incumplimientos de políticas, a menudo permitiendo el reporte anónimo.
Más allá de los controles internos, varias políticas enfatizan la transparencia y la retroalimentación externa como componentes esenciales de la rendición de cuentas. Esto puede incluir hacer pública información clave relacionada con el riesgo, como metodologías de evaluación, resúmenes de evaluaciones de riesgo y respuestas a instancias identificadas de incumplimiento. Se busca la retroalimentación de expertos de entidades externas a través de la consulta para realizar evaluaciones y evaluar tanto los umbrales de capacidad como las mitigaciones asociadas. Además, ciertas políticas delinean un compromiso proactivo con agencias gubernamentales, indicando una intención de compartir información relevante sobre modelos que alcanzan niveles de capacidad críticos que ameritan protecciones más rigurosas y demuestran un compromiso de trabajar con el cambiante panorama regulatorio. Algunas organizaciones se comprometen a revisiones de cumplimiento de procedimientos por parte de terceros para evaluar la consistencia de las políticas, con terceros auditando el proceso de evaluación para mejorar la precisión y la equidad en los resultados.
Detalles de Implementación
Si bien las intenciones de alto nivel parecen consistentes en muchas de estas políticas, los detalles específicos de la validación externa y las medidas de transparencia demuestran un rango notable. La profundidad y la amplitud de la transparencia varían sustancialmente, con algunas organizaciones comprometiéndose a la divulgación pública detallada de evaluaciones clave, mientras que otras se centran en proporcionar información más general. Aunque el compromiso con la auditoría independiente es prometedor, los detalles concretos de cómo se estructuran, implementan y actúan estas auditorías siguen siendo en gran medida indefinidos. Estas medidas de rendición de cuentas, si bien muestran una tendencia positiva hacia una mayor supervisión en el contexto de la IA de frontera, probablemente necesitarán evolucionar y madurar a medida que las empresas continúen lidiando con los complejos desafíos de este campo en desarrollo.
¿Con qué frecuencia y según qué parámetros se actualizan las políticas de seguridad
Las políticas de seguridad de la IA de frontera no son documentos estáticos; más bien, están diseñadas para evolucionar junto con los rápidos avances en las capacidades de la IA y la creciente comprensión de los riesgos asociados. Las doce empresas con políticas de seguridad publicadas expresan su intención de actualizar sus protocolos periódicamente. Este compromiso reconoce que el estudio empírico de los riesgos catastróficos de los modelos de IA de frontera aún se encuentra en sus primeras etapas, y las estimaciones actuales de los niveles de riesgo y los umbrales están sujetas a mejoras basadas en la investigación en curso, los informes de incidentes y el mal uso observado. Por lo tanto, el monitoreo continuo de los desarrollos de investigación relevantes es crucial para identificar amenazas emergentes o poco estudiadas que requieran ajustes a los marcos de seguridad existentes.
Los parámetros para desencadenar actualizaciones varían un poco entre las políticas, pero generalmente incluyen cambios significativos en la capacidad de los modelos de IA y avances en la ciencia de la evaluación y la mitigación de riesgos. OpenAI, por ejemplo, indica que las actualizaciones se desencadenan cuando hay un aumento superior a 2 veces en el cómputo efectivo o un avance algorítmico importante. Otras empresas mencionan la realización de pruebas rutinarias en los modelos para determinar si sus capacidades están significativamente por debajo de los umbrales de capacidad y que un cronograma informará las actualizaciones (como Amazon) y Naver, que evalúa los sistemas trimestralmente (o antes según aumentos métricos). Este marco reconoce que, en ciertas áreas, puede ser beneficioso concretar aún más los compromisos. Las actualizaciones de las políticas a menudo son aprobadas por la junta directiva, así como por varios expertos en gobernanza y materia.
Cambios en las Políticas e Implementación
El proceso de actualización de las políticas implica varios pasos clave. Los cambios propuestos generalmente se originan en las partes interesadas internas, como el CEO, el Oficial de Escala Responsable o la Junta de Gobernanza de IA de Frontera, que consta de expertos en la materia. Estas propuestas luego están sujetas a revisión y aprobación por parte de organismos de gobernanza superiores, como la Junta Directiva o el Comité de Liderazgo Ejecutivo. Muchas políticas también incorporan comentarios externos y comparaciones con los estándares de la industria para garantizar que las prácticas sigan alineadas con los marcos globales en evolución. Para mantener la transparencia, las empresas a menudo se comprometen a publicar versiones actualizadas de sus políticas, junto con registros de cambios que detallan las modificaciones realizadas y la justificación detrás de ellas. Estas actualizaciones facilitan el diálogo continuo con las partes interesadas y fomentan una comprensión compartida del panorama en evolución de la seguridad de la IA.
spanish
Umbrales de Capacidad
Las descripciones de los niveles de capacidad de la IA que plantearían un riesgo grave y requerirían nuevas mitigaciones robustas son un elemento central dentro del panorama de las políticas de seguridad de la IA de vanguardia. La mayoría de las políticas estudiadas definen meticulosamente los umbrales de capacidad peligrosos, utilizándolos como puntos de referencia frente a los resultados de las evaluaciones de los modelos para determinar si se han superado esos niveles críticos. La Política de Escalamiento Responsable de Anthropic, por ejemplo, utiliza los conceptos de Umbrales de Capacidad y Salvaguardias Requeridas, especificando umbrales relacionados con armas QBRN y I+D autónoma de IA, e identificando las Salvaguardias Requeridas correspondientes destinadas a mitigar el riesgo a niveles aceptables. El Marco de Preparación de OpenAI establece una escala de gradación para las categorías de riesgo rastreadas, que van de «bajo» a «crítico», lo que permite la aplicación proactiva de mitigaciones personalizadas a medida que las amenazas se intensifican. El Marco de Seguridad de Frontera de Google DeepMind describe dos conjuntos de Niveles de Capacidad Críticos (NCC): NCC de mal uso, que indican un mayor riesgo de daño grave por mal uso, y NCC de alineación engañosa, que indican un mayor riesgo de eventos relacionados con la alineación engañosa.
En general, estos umbrales de capacidad están intrínsecamente vinculados a los modelos de amenazas subyacentes, que son vías plausibles por las cuales los sistemas de vanguardia pueden conducir a daños catastróficos. Algunos de los modelos de amenazas más comúnmente cubiertos incluyen: asistencia con armas biológicas, donde los modelos de IA podrían ayudar a actores maliciosos a desarrollar armas biológicas catastróficas; ciberofensa, donde los modelos de IA podrían capacitar a los actores para automatizar o mejorar los ciberataques; e investigación y desarrollo automatizados de IA, donde los modelos de IA podrían acelerar el desarrollo de la IA a un nivel humano experto. Otras capacidades consideradas, aunque no universalmente, incluyen la replicación autónoma, la persuasión avanzada y la alineación engañosa. Estos modelos de amenazas y umbrales de capacidad ayudan a alinear las políticas de seguridad de la IA con estrategias proactivas de gestión de riesgos.
En particular, existen desviaciones en los enfoques del riesgo, con algunas políticas, como los marcos de Nvidia y Cohere, que ponen más énfasis en los riesgos específicos del dominio en lugar de simplemente apuntar a los riesgos catastróficos. Además, las políticas de seguridad de xAI y Magic destacan por ponderar fuertemente los puntos de referencia cuantitativos al evaluar sus modelos, una desviación de la mayoría de sus contrapartes. Independientemente de estos matices únicos, prevalecen los temas comunes: todas las políticas de seguridad de vanguardia reflejan un claro enfoque en la identificación y gestión de las capacidades de la IA que podrían representar un daño material. Ya sea a través de marcos detallados, estrategias de mitigación específicas, modelado de amenazas o pruebas y auditorías rigurosas, todos tienen como objetivo mitigar los riesgos de los sistemas avanzados de Inteligencia Artificial.