Qual é o objetivo geral e escopo do estudo
Este documento apresenta uma análise de elementos comuns encontrados em doze políticas de segurança de IA de fronteira publicadas atualmente. Essas políticas, estabelecidas por empresas líderes de IA, são protocolos projetados para mitigar os riscos associados ao desenvolvimento e implantação de modelos de IA de última geração, visando manter esses riscos em um nível aceitável. Esta análise se baseia em trabalhos anteriores, investigando se as nove políticas adicionais publicadas além do conjunto inicial de Anthropic, OpenAI e Google DeepMind incorporam os mesmos componentes-chave inicialmente identificados. Em última análise, o relatório procura oferecer insights sobre as melhores práticas atuais para gerenciar riscos severos de IA, analisando esses elementos compartilhados dentro do contexto de informações básicas e trechos de políticas reais. O estudo visa promover uma compreensão mais profunda de como a indústria de IA aborda a tarefa crítica de garantir o avanço seguro e responsável da tecnologia de IA de fronteira.
O escopo do estudo engloba um exame detalhado de vários componentes críticos encontrados nas políticas de segurança. Esses componentes incluem limiares de capacidade que definem pontos em que capacidades específicas de IA representariam riscos severos e exigiriam novas estratégias de mitigação. A segurança do peso do modelo também é examinada, especificamente as medidas de segurança da informação destinadas a prevenir o acesso não autorizado aos pesos do modelo. O estudo investiga ainda as mitigações de implantação do modelo – medidas de acesso e nível de modelo projetadas para prevenir o uso indevido de capacidades perigosas de IA. As condições para interromper os planos de implantação e desenvolvimento também são analisadas, com foco nos compromissos das empresas de cessar a atividade se capacidades preocupantes de IA surgirem antes que mitigações adequadas estejam em vigor. A abrangência da eliciação de capacidade durante as avaliações do modelo também é investigada, juntamente com o tempo e a frequência especificados dessas avaliações. Finalmente, o estudo investiga os mecanismos de responsabilização, especificamente os mecanismos de supervisão interna e externa destinados a incentivar a execução adequada das políticas de segurança, e a intenção declarada de atualizar as políticas ao longo do tempo à medida que a compreensão dos riscos de IA evolui.
Nuances da política
Embora busque uma visão abrangente dos elementos comuns, o estudo também reconhece as abordagens e diferenças únicas encontradas em cada política de segurança individual. Certas políticas enfatizam riscos específicos do domínio, como o foco da Nvidia e da Cohere em aplicações específicas, em vez de se concentrarem exclusivamente no potencial de danos catastróficos. Da mesma forma, o estudo reconhece nuances em diferentes métodos de avaliação, onde algumas políticas dependem fortemente de benchmarks quantitativos, enquanto outras priorizam avaliações qualitativas. Reconhecendo essas variações, a análise apresenta uma compreensão holística das várias estratégias empregadas pelos desenvolvedores de IA, fornecendo insights valiosos sobre o estado atual das práticas de segurança no domínio da IA de fronteira.
Qual a necessidade de descrever os componentes comuns das políticas de segurança de IA
A proliferação de políticas de segurança de IA de fronteira entre os principais desenvolvedores de IA ressalta um reconhecimento compartilhado dos riscos potenciais associados a modelos de IA cada vez mais capazes. Descrever os componentes comuns dessas políticas serve como um passo crucial para promover uma compreensão coletiva do estado atual da gestão de riscos de IA. Ao identificar os elementos compartilhados, como limites de capacidade, segurança de pesos de modelo, mitigações de implantação e estratégias de avaliação, podemos começar a estabelecer uma linha de base para o desenvolvimento e implantação responsáveis de IA. Essa compreensão permite que as partes interessadas, incluindo legisladores, pesquisadores e o público, avaliem criticamente a abrangência e o rigor das políticas individuais e identifiquem lacunas ou áreas onde mais refinamento é necessário. Essa análise comparativa pode informar significativamente o diálogo contínuo sobre segurança de IA e ajudar a impulsionar o desenvolvimento de medidas de segurança mais robustas e eficazes.
Por que a linguagem comum é importante.
Além disso, uma articulação clara dos componentes comuns ajuda a promover a consistência e a interoperabilidade entre diferentes esforços de desenvolvimento de IA. Embora cada política possa refletir uma abordagem única para o gerenciamento de riscos de IA, um vocabulário compartilhado e uma compreensão dos conceitos básicos podem facilitar a colaboração e o compartilhamento de conhecimento entre os desenvolvedores. Isso é particularmente importante, dada a natureza global da pesquisa de IA e a necessidade de ação coordenada para lidar com os riscos potenciais. Uma estrutura padronizada permite uma comparação mais clara de diferentes abordagens, destacando as melhores práticas e facilitando a adoção de estratégias de mitigação de risco mais eficazes em todo o setor. Isso evita a reinvenção e facilita o uso das saídas de diferentes organizações.
Finalmente, documentar e disseminar esses componentes comuns fornece um recurso valioso para organizações que estão apenas começando a formular suas próprias políticas de segurança de IA. Ao fornecer uma visão geral clara dos elementos essenciais, ele diminui a barreira de entrada para organizações que buscam adotar práticas responsáveis de desenvolvimento de IA. Isso é especialmente importante para organizações menores ou com menos recursos que podem não ter a experiência ou os recursos para desenvolver políticas abrangentes do zero. Fornecer uma estrutura bem definida, incluindo elementos comuns e uma justificativa, garante que o setor evolua para práticas de desenvolvimento mais seguras em geral.
Quais critérios definem riscos potencialmente severos relacionados a modelos de IA
A análise das políticas de segurança de IA de fronteira revela que vários critérios são consistentemente usados para definir riscos potencialmente severos associados a esses modelos avançados. Esses critérios geralmente giram em torno das capacidades dos próprios modelos, especificamente seu potencial para uso indevido e o impacto resultante. Um elemento-chave é o estabelecimento de *limiares de capacidade*, que significam níveis específicos de funcionalidade de IA que, se atingidos, representariam um risco significativo e exigiriam a implementação de estratégias de mitigação robustas. Esses limiares são frequentemente comparados com modelos de ameaças plausíveis, que descrevem cenários prospectivos onde a IA poderia ser explorada para causar danos consideráveis. Por exemplo, exceder um limiar de capacidade predefinido em um domínio biológico pode indicar o potencial da IA para facilitar o desenvolvimento de armas biológicas, desencadeando protocolos de segurança rigorosos.
Além disso, essas políticas de segurança comumente enfatizam a importância dos modelos de ameaças para determinar os limiares de capacidade. Estes incluem comumente assistência no desenvolvimento de armas biológicas, a orquestração ou aprimoramento de crimes cibernéticos e a automação de pesquisa e desenvolvimento de IA, o que poderia acelerar a proliferação de capacidades de IA potencialmente perigosas. Avaliações desses modelos são frequentemente projetadas para considerar as capacidades de habilitação, como pesquisa e desenvolvimento automatizados de IA, uso de ferramentas ou engenharia de prompts, que podem aumentar os casos potenciais de uso indevido além das capacidades do modelo de linha de base. Isso inclui avaliar a proficiência do modelo em tarefas específicas relevantes para esses modelos de ameaças, levando em consideração possíveis aprimoramentos pós-treinamento, como ajuste fino, execução de código, uso de ferramentas ou pesquisa na web para garantir que a avaliação capture todo o potencial do modelo.
Metodologias de Avaliação de Risco
Outro aspecto crucial para definir riscos potencialmente severos é a avaliação e o monitoramento contínuos de modelos de IA ao longo de seu ciclo de vida. Isso implica não apenas avaliações pré-implantação, mas também avaliações contínuas durante o treinamento e monitoramento pós-implantação para detectar quaisquer capacidades ou vulnerabilidades emergentes. A frequência e a intensidade dessas avaliações são frequentemente determinadas pela taxa de progresso nas capacidades do modelo, com avaliações mais frequentes desencadeadas por avanços significativos ou descobertas algorítmicas. O estabelecimento de indicadores precisos e limiares de alerta, que são regularmente revisados e atualizados com base em riscos evolutivos e avanços de mitigação, é um elemento crucial na definição de um risco potencialmente maior que exige um foco aumentado na identificação e no enfrentamento de capacidades potencialmente perigosas. Essa abordagem proativa garante que os riscos potenciais sejam identificados e abordados prontamente, impedindo a implantação antes que salvaguardas apropriadas estejam em vigor e interrompendo o desenvolvimento se as medidas de segurança necessárias não puderem ser implementadas.
Que medidas são tomadas para impedir o acesso não autorizado aos pesos do modelo
Um componente crítico das políticas de segurança de IA de ponta envolve medidas robustas projetadas para impedir o acesso não autorizado aos pesos do modelo. O consenso entre as políticas examinadas é que, à medida que os modelos de IA desenvolvem capacidades de preocupação, medidas de segurança da informação progressivamente mais fortes são essenciais para impedir tanto o roubo quanto as liberações não intencionais. Esta ênfase decorre do reconhecimento de que atores maliciosos que adquirem pesos de modelo podem usá-los indevidamente para infligir danos severos. A sofisticação dos potenciais atores de ameaças varia, abrangendo desde hackers oportunistas até operações de estados-nação altamente financiadas, exigindo uma abordagem multicamada aos protocolos de segurança.
Escalando as Medidas de Segurança
As medidas de segurança específicas são geralmente implementadas em níveis crescentes, compatíveis com as capacidades de um modelo e o risco percebido. Esses níveis geralmente se alinham com as estruturas existentes que fornecem níveis de controles de segurança recomendados. Por exemplo, controles específicos podem incluir restrições de acesso rigorosas, registro e monitoramento aprimorados, controles avançados de segurança perimetral, sistemas de detecção e resposta de endpoint e a aplicação de autenticação multifator em todo o ambiente de desenvolvimento. O red-teaming de segurança avançado é frequentemente utilizado para simular ataques, testando a robustez das salvaguardas existentes. Medidas de proteção de dados, como criptografia e o uso de tokens de segurança de hardware, também são comuns para proteger os dados do modelo e os checkpoints intermediários. Muitas políticas enfatizam a importância da compartimentalização interna para restringir o acesso a ambientes de treinamento de LLM, código e parâmetros apenas a pessoal autorizado com níveis de autorização apropriados. Os pesos do modelo são frequentemente armazenados em redes isoladas que atendem a requisitos de segurança rigorosos.
Vários desenvolvedores de IA referenciam o relatório da RAND Corporation, “Securing AI Model Weights”. As empresas adotam princípios descritos nessa estrutura, com orientações específicas sobre o nível de segurança recomendado para modelos com certas capacidades. A ênfase é colocada na adesão a estruturas e práticas de segurança padrão do setor, como a estrutura MITRE ATT&CK e as melhores práticas de governança de risco. Além disso, essas políticas visam garantir níveis equivalentes de garantia, mesmo quando os modelos são implantados em ambientes de terceiros com salvaguardas de segurança potencialmente diferentes. Se mitigações adequadas não puderem ser implementadas prontamente, as políticas ditam a pausa no desenvolvimento do modelo para evitar a progressão de capacidades potencialmente prejudiciais sem um ambiente seguro em vigor. A eficácia das mitigações de implantação depende de os modelos permanecerem em segurança na posse de desenvolvedores autorizados, enfatizando assim a importância das medidas de segurança da informação. O objetivo primordial é proteger esses poderosos sistemas de IA do potencial uso indevido por entidades hostis que possam procurar explorar seus recursos avançados para fins nefastos.
Quais estratégias de implantação são empregadas para reduzir os riscos de capacidades perigosas de IA
As políticas de segurança da IA de fronteira enfatizam uma abordagem em camadas para mitigar os riscos associados à implantação. Essas estratégias abrangem uma variedade de técnicas, desde treinar modelos para recusar solicitações prejudiciais até um monitoramento de saída e treinamento adversarial mais sofisticados. O princípio subjacente é que as medidas de proteção devem ser dimensionadas proporcionalmente ao dano potencial que um modelo pode causar. À medida que os modelos se tornam mais poderosos e capazes, eles inevitavelmente atraem tentativas mais determinadas e ricas em recursos para contornar as restrições ou explorar suas habilidades. Portanto, os métodos iniciais, como a recusa básica de danos, são complementados por red-teaming especializado e automatizado para identificar e abordar possíveis vulnerabilidades antes da implantação. O monitoramento contínuo pós-implantação também é crucial para detectar e corrigir quaisquer comprometimentos ou jailbreaks que possam surgir.
Muitas políticas de segurança da IA de fronteira incorporam estratégias específicas de mitigação de implantação com base em limites de capacidade claramente definidos. Ao atingir um limite crítico, várias medidas são ativadas, geralmente envolvendo uma combinação de estratégias de contenção e redução de riscos. Estas podem incluir a limitação severa do acesso a um modelo ou suas funcionalidades, a implantação do modelo apenas em ambientes altamente restritos e o aumento significativo da prioridade dos controles de informação e de segurança cibernética. Algumas empresas usam técnicas como ajustar modelos para rejeitar consultas prejudiciais, empregar classificadores de segurança de saída e implementar monitoramento contínuo para detectar e lidar com o uso indevido de um modelo. Além disso, muitos reconhecem a necessidade de remediação rápida, por meio de correção rápida de vulnerabilidades, escalada para as autoridades policiais quando necessário e retenção estrita de registros. Em última análise, muitos se comprometem a não implantar modelos de fronteira se eles excederem os limites de risco predefinidos até que as salvaguardas apropriadas sejam encontradas e sejam demonstrativamente eficazes.
Táticas Específicas para Modelos de Alto Risco
Para modelos que exibem um potencial significativo de uso indevido, as estratégias de implantação geralmente envolvem o estabelecimento de critérios para compartilhar versões do modelo com salvaguardas reduzidas com um grupo seleto de usuários confiáveis. Esses usuários geralmente estão sujeitos a processos de triagem rigorosos, controles de acesso seguros, monitoramento rigoroso, políticas estritas de retenção de registros e protocolos de resposta a incidentes bem definidos. Além disso, as estruturas delineiam as condições para interromper os planos de implantação por completo se as mitigações suficientes não estiverem em vigor. Por exemplo, se um modelo de IA demonstra capacidades potencialmente perigosas antes que as salvaguardas necessárias possam ser implementadas, a implantação adicional é pausada até que essas medidas de segurança estejam efetivamente em vigor e demonstrativamente robustas. Cada um desses métodos se combina para reduzir drasticamente o risco de um modelo durante a implantação.
Quais são as condições para restringir planos de desenvolvimento de modelos
As políticas de segurança de IA de fronteira reconhecem que existem circunstâncias em que o desenvolvimento contínuo de modelos representa riscos inaceitáveis, necessitando uma paralisação do progresso adicional. Esta seção explora as condições que desencadeiam compromissos para restringir ou pausar planos de desenvolvimento de modelos. Essas condições estão geralmente ligadas ao surgimento de capacidades específicas de IA que levantam sérias preocupações sobre potenciais usos indevidos, juntamente com uma incapacidade de mitigar adequadamente esses riscos por meio de medidas de segurança ou outras proteções. O princípio central subjacente a essas condições é a necessidade de impedir o avanço adicional de modelos que possam causar danos catastróficos se suas capacidades ultrapassarem o desenvolvimento e a implementação de medidas de proteção suficientes.
Uma condição primária para interromper o desenvolvimento concentra-se em situações em que um modelo cruza limites de capacidade predefinidos relacionados ao potencial perigoso. Por exemplo, se um modelo demonstrar uma habilidade marcante para facilitar o desenvolvimento de armas biológicas ou executar ataques cibernéticos complexos, e os protocolos de segurança correspondentes para impedir o roubo de peso do modelo forem considerados insuficientes, o desenvolvimento será pausado. Outro gatilho envolve a identificação de um desalinhamento significativo do modelo durante o processo de treinamento, mesmo que a implantação externa não seja iminente. Isso requer uma cessação imediata do desenvolvimento para abordar as principais questões de alinhamento antes que mais capacidades sejam cultivadas. A determinação de se as mitigações adequadas são possíveis geralmente envolve um processo de avaliação rigoroso.
Determinando a Suficiência das Mitigações
A determinação de se as mitigações adequadas podem ser implementadas é um julgamento caso a caso, mas alguns princípios orientadores podem ser extraídos de como ela é abordada nas políticas de segurança existentes. Frequentemente, requer uma reavaliação dos protocolos de segurança planejados atuais para decidir se o aumento demonstrado na capacidade também representa um risco maior. Além disso, o desenvolvimento de aprimoramento da segurança (não o desenvolvimento da capacidade) pode continuar durante a pausa. Tal ação pode incluir desenvolvimento direcionado, como ajuste fino ou treinamento de segurança. Em última análise, as políticas refletem um compromisso de priorizar a segurança, reconhecendo que o rápido avanço das capacidades de IA deve ser cuidadosamente gerenciado para evitar consequências não intencionais e potencialmente devastadoras.
Como a análise das capacidades completas do modelo pode melhorar o processo de avaliação
Analisar toda a gama de capacidades de um modelo, em vez de focar apenas nas funcionalidades esperadas ou pretendidas, melhora significativamente o processo de avaliação, revelando potenciais riscos associados ao uso indevido ou consequências não intencionais. Ignorar as capacidades completas pode levar a uma subestimação grosseira do verdadeiro perfil de risco, pois as capacidades podem surgir de maneiras inesperadas, especialmente por meio de técnicas como engenharia de prompts, ajuste fino ou o uso de ferramentas externas. Ao tentar ativamente obter as capacidades de um modelo – incluindo cenários em que ele pode ser usado de forma maliciosa – os avaliadores podem obter uma compreensão mais realista do dano potencial que ele pode causar. Essa abordagem abrangente para a descoberta de capacidades fornece uma base mais forte para o desenvolvimento de medidas de segurança e estratégias de mitigação direcionadas.
Além disso, entender as capacidades completas de um modelo permite um desenvolvimento de mitigação mais proativo. Quando as avaliações consideram áreas potenciais de uso indevido, os desenvolvedores podem projetar salvaguardas que visem especificamente essas vulnerabilidades antes que sejam exploradas. Por exemplo, avaliar a capacidade de um modelo de auxiliar em ataques cibernéticos permite a implementação de defesas que impedem o modelo de gerar código malicioso ou identificar vulnerabilidades. Da mesma forma, entender o potencial de um modelo para automatizar a pesquisa em IA permite o monitoramento proativo e salvaguardas para evitar práticas de desenvolvimento inseguras. Essa abordagem voltada para o futuro garante que as medidas de segurança estejam alinhadas com o impacto potencial do modelo, reduzindo a probabilidade de resultados prejudiciais.
Melhorando a Robustez através da Obtenção de Capacidades
O processo de obter as capacidades completas do modelo também fortalece inerentemente os testes de robustez. Ao testar o modelo sob estresse com prompts desafiadores, entradas adversárias, simulando conhecimento avançado por meio de ajuste fino e incorporando o uso potencial de ferramentas, os desenvolvedores podem identificar fraquezas nas medidas de segurança existentes e refiná-las de acordo. Este robusto processo de avaliação garante que os mecanismos de segurança sejam menos suscetíveis a serem contornados, pois as potenciais fraquezas já foram identificadas e abordadas durante a fase de avaliação. Além disso, isso proporciona a capacidade de criar um modelo de ameaças mais abrangente e detalhado. A informação produzida a partir da obtenção de capacidades ajuda os desenvolvedores a construir caminhos que atores maliciosos podem tomar e fornece insights sobre as salvaguardas mais adequadas para detê-los.
Como essas políticas estabelecem os mecanismos para a supervisão no contexto da IA de fronteira
As políticas de segurança de IA de fronteira geralmente incorporam mecanismos de responsabilização, projetados para garantir a execução adequada dos padrões definidos em cada estrutura. Esses mecanismos visam promover tanto a governança interna quanto o envolvimento externo. A governança interna frequentemente envolve a designação de funções e responsabilidades específicas para supervisionar a implementação das políticas de segurança. Essa supervisão pode ser feita por indivíduos especializados, como um “Oficial de Dimensionamento Responsável”, equipes internas ou órgãos de governança encarregados de monitorar a adesão às políticas e avaliar os riscos associados. A conformidade é ainda reforçada por meio de procedimentos internos de segurança para cenários de incidentes relevantes, planos de comunicação claros entre diferentes equipes, revisões internas e o estabelecimento de processos para relatar violações de políticas, muitas vezes permitindo relatórios anônimos.
Além dos controles internos, várias políticas enfatizam a transparência e a entrada externa como componentes essenciais da responsabilização. Isso pode incluir a disponibilização pública de informações importantes relacionadas a riscos, como metodologias de avaliação, resumos de avaliações de risco e respostas a instâncias identificadas de não conformidade. A contribuição de especialistas de entidades externas é buscada por meio de consultas para conduzir avaliações e avaliar os limites de capacidade e as mitigações associadas. Além disso, certas políticas descrevem o envolvimento proativo com agências governamentais, indicando uma intenção de compartilhar informações relevantes sobre modelos que atingem níveis críticos de capacidade que exigem proteções mais rigorosas e demonstram um compromisso de trabalhar com o cenário regulatório em desenvolvimento. Algumas organizações se comprometem com revisões de conformidade processual de terceiros para avaliar a consistência das políticas, com terceiros auditando o processo de avaliação para melhorar a precisão e a imparcialidade nos resultados.
Detalhes da Implementação
Embora as intenções de alto nível pareçam consistentes em muitas dessas políticas, os detalhes específicos da validação externa e as medidas de transparência demonstram uma variedade notável. A profundidade e a amplitude da transparência variam substancialmente, com algumas organizações se comprometendo com a divulgação pública detalhada de avaliações importantes, enquanto outras se concentram em fornecer insights mais gerais. Embora o compromisso com a auditoria independente seja promissor, os detalhes concretos de como essas auditorias são estruturadas, implementadas e consideradas permanecem amplamente indefinidos. Essas medidas de responsabilização, embora mostrem uma tendência positiva em direção a uma maior supervisão no contexto da IA de fronteira, provavelmente precisarão evoluir e amadurecer à medida que as empresas continuam a lidar com os desafios complexos deste campo em desenvolvimento.
Com que frequência e de acordo com quais parâmetros as políticas de segurança são atualizadas
As políticas de segurança de IA de fronteira não são documentos estáticos; em vez disso, são projetadas para evoluir juntamente com os rápidos avanços nas capacidades de IA e o crescente entendimento dos riscos associados. Todas as doze empresas com políticas de segurança publicadas expressam intenções de atualizar seus protocolos periodicamente. Este compromisso reconhece que o estudo empírico dos riscos catastróficos de modelos de IA de fronteira ainda está em seus estágios iniciais, e as estimativas atuais de níveis de risco e limites estão sujeitas a refinamento com base em pesquisas em andamento, relatórios de incidentes e uso indevido observado. O monitoramento contínuo dos desenvolvimentos de pesquisa relevantes é, portanto, crucial para identificar ameaças emergentes ou pouco estudadas que necessitam de ajustes nas estruturas de segurança existentes.
Os parâmetros para acionar atualizações variam um pouco entre as políticas, mas geralmente incluem mudanças significativas na capacidade dos modelos de IA e avanços na ciência da avaliação e mitigação de riscos. A OpenAI, por exemplo, indica que as atualizações são acionadas sempre que há um aumento maior que 2x no poder computacional efetivo ou um grande avanço algorítmico. Outras empresas mencionam testar rotineiramente os modelos para determinar se suas capacidades estão significativamente abaixo dos Limites de Capacidade e que um cronograma informará as atualizações (como a Amazon) e a Naver, que avalia os sistemas trimestralmente (ou mais cedo com base em aumentos de métricas). Esta estrutura reconhece que, em certas áreas, pode ser benéfico concretizar ainda mais os compromissos. As atualizações de políticas são frequentemente aprovadas pelo conselho de administração, bem como por vários especialistas em assuntos e governança.
Mudanças e Implementação de Políticas
O processo de atualização das políticas envolve várias etapas-chave. As mudanças propostas normalmente se originam de partes interessadas internas, como o CEO, o Diretor de Escalonamento Responsável ou o Conselho de Governança de IA de Fronteira, composto por especialistas no assunto. Essas propostas são então sujeitas a revisão e aprovação por órgãos de governança superiores, como o Conselho de Administração ou o Comitê Executivo de Liderança. Muitas políticas também incorporam feedback externo e benchmarking em relação aos padrões da indústria para garantir que as práticas permaneçam alinhadas com as estruturas globais em evolução. Para manter a transparência, as empresas geralmente se comprometem a publicar versões atualizadas de suas políticas, juntamente com registros de alterações detalhando as modificações feitas e a justificativa por trás delas. Essas atualizações facilitam o diálogo contínuo com as partes interessadas e promovem uma compreensão compartilhada do cenário em evolução da segurança de IA.
Limiares de Capacidade
Descrições de níveis de capacidade de IA que representariam risco severo e exigiriam novas mitigações robustas são um elemento central no cenário das políticas de segurança de IA de fronteira. A maioria das políticas estudadas define meticulosamente limiares de capacidade perigosos, usando-os como referências em relação aos resultados das avaliações de modelos para determinar se esses níveis críticos foram violados. A Política de Escalonamento Responsável da Anthropic, por exemplo, usa os conceitos de Limiares de Capacidade e Salvaguardas Necessárias, especificando limiares relacionados a armas QBRN e P&D autônoma de IA, e identificando as Salvaguardas Necessárias correspondentes, destinadas a mitigar o risco a níveis aceitáveis. A Estrutura de Preparação da OpenAI estabelece uma escala de gradação para categorias de risco rastreadas, variando de “baixo” a “crítico”, permitindo a aplicação proativa de mitigações personalizadas à medida que as ameaças aumentam. A Estrutura de Segurança de Fronteira do Google DeepMind descreve dois conjuntos de Níveis de Capacidade Críticos (NCCs): NCCs de uso indevido, indicando um risco aumentado de danos graves decorrentes do uso indevido, e NCCs de alinhamento enganoso, indicando um risco aumentado de eventos relacionados ao alinhamento enganoso.
De modo geral, esses limiares de capacidade estão intrinsecamente ligados aos modelos de ameaça subjacentes, que são caminhos plausíveis pelos quais os sistemas de fronteira podem levar a danos catastróficos. Alguns dos modelos de ameaça mais comumente abordados incluem: assistência para armas biológicas, onde os modelos de IA poderiam ajudar agentes maliciosos no desenvolvimento de armas biológicas catastróficas; ciberofensiva, onde os modelos de IA poderiam capacitar agentes a automatizar ou aprimorar ataques cibernéticos; e pesquisa e desenvolvimento de IA automatizada, onde os modelos de IA poderiam acelerar o desenvolvimento de IA em um nível humano especializado. Outras capacidades consideradas, embora não universalmente, incluem replicação autônoma, persuasão avançada e alinhamento enganoso. Esses modelos de ameaça e limiares de capacidade ajudam a alinhar as políticas de segurança de IA com estratégias proativas de gerenciamento de risco.
Notavelmente, existem desvios nas abordagens ao risco, com algumas políticas, como as estruturas da Nvidia e da Cohere, colocando mais ênfase em riscos específicos de domínio, em vez de apenas visar riscos catastróficos. Além disso, as políticas de segurança da xAI e Magic se destacam por ponderar fortemente as referências quantitativas ao avaliar seus modelos, um desvio da maioria de suas contrapartes. Independentemente dessas nuances únicas, temas comuns prevalecem: todas as políticas de segurança de fronteira refletem um foco claro na identificação e gerenciamento de capacidades de IA que poderiam representar danos materiais. Seja por meio de estruturas detalhadas, estratégias de mitigação específicas, modelagem de ameaças ou testes e auditorias rigorosas, todas visam mitigar os riscos de sistemas avançados de Inteligência Artificial.