Gerenciando os Riscos da IA: A Abordagem Prioritária para a Segurança da Anthropic

À medida que os sistemas de IA se tornam cada vez mais sofisticados, a necessidade de medidas de segurança robustas torna-se fundamental. Este trabalho explora as estratégias críticas empregadas para governar os riscos associados ao desenvolvimento avançado de IA. Aprofunda-se num sistema multifacetado, projetado para avaliar, monitorizar e mitigar cuidadosamente os potenciais perigos, garantindo que estas tecnologias poderosas sejam implementadas de forma responsável. Compreender esses mecanismos de governação de riscos é essencial para navegar no cenário complexo da IA moderna e promover a sua integração segura e benéfica na sociedade.

Quais medidas são empregadas pela Anthropic para a governança de riscos no desenvolvimento e implantação de IA

A estratégia de governança de riscos da Anthropic se concentra em um sistema hierárquico chamado Padrões de Nível de Segurança de IA (ASL). Estes padrões são fundamentais na avaliação e mitigação dos riscos associados a modelos de IA cada vez mais capazes. A abordagem envolve uma combinação de medidas técnicas, operacionais e políticas para garantir o desenvolvimento e implantação responsáveis da IA.

Componentes Essenciais da Governança de Riscos de IA da Anthropic

  • Padrões de Nível de Segurança de IA (Padrões ASL): Estes padrões são categorizados em Padrões de Implantação e Segurança. Os Padrões de Implantação se concentram no uso seguro por usuários internos e externos, enquanto os Padrões de Segurança visam proteger os modelos de IA contra acesso não autorizado ou roubo. Todos os modelos atuais devem atender pelo menos ao ASL-2.
  • Limiares de Capacidade: São níveis predefinidos de capacidade de IA que, quando atingidos, desencadeiam a necessidade de padrões ASL mais altos. Eles significam um aumento significativo no risco, exigindo salvaguardas aprimoradas. Limiares de Capacidade específicos incluem preocupações relacionadas a armas Químicas, Biológicas, Radiológicas e Nucleares (QBRN), e Pesquisa e Desenvolvimento Autônomos de IA (P&D de IA).
  • Salvaguardas Necessárias: Representam as medidas específicas de segurança exigidas para cada Limiar de Capacidade para mitigar os riscos a níveis aceitáveis. Atuam como a implementação prática dos Padrões ASL.
  • Avaliação de Capacidade: Envolve testes preliminares e abrangentes para determinar se as capacidades de um modelo excedem os Limiares de Capacidade estabelecidos. Se os limiares forem excedidos, os modelos são atualizados para as Salvaguardas Necessárias do ASL-3.
  • Avaliação de Salvaguardas: Avalia se as medidas implementadas satisfazem as Salvaguardas Necessárias do ASL-3. Isso inclui red-teaming, modelagem de ameaças e o estabelecimento de estruturas de segurança robustas.
  • Avaliação de Capacidade de Acompanhamento: Realizada em conjunto com a atualização de um modelo para as Salvaguardas Necessárias do ASL-3 para garantir que salvaguardas adicionais não sejam necessárias.

Ferramentas e Processos Práticos

Para determinar se o Padrão ASL-2 permanece apropriado, a Anthropic realiza rotineiramente verificações em modelos novos e existentes, começando com uma avaliação preliminar. Os principais aspectos desse processo incluem:

  • Medir o desempenho em testes automatizados
  • Acompanhar o ajuste fino cumulativo desde a última avaliação abrangente.

Se essas verificações forem aprovadas, nenhum teste adicional é necessário. Quando um ciclo de teste mais abrangente é justificado, a empresa se envolve em uma avaliação mais extensa para garantir que os riscos permaneçam abaixo do limite.

Governança e Transparência

O compromisso da Anthropic com a IA responsável se estende aos processos internos e à transparência externa. As principais medidas incluem:

  • Responsável pelo Dimensionamento Responsável: Um membro da equipe designado responsável por garantir o design e a implementação eficazes da Política de Dimensionamento Responsável.
  • Procedimentos Internos de Segurança: Desenvolvimento de procedimentos para cenários de incidentes, como pausar o treinamento ou responder a violações de segurança.
  • Transparência: Divulgação pública de informações importantes relacionadas à avaliação e implantação de modelos, incluindo resumos de Relatórios de Capacidade e Salvaguardas.
  • Contribuições de Especialistas: Solicitação ativa de contribuições de especialistas externos em domínios relevantes para informar as avaliações de capacidade e salvaguardas..
  • Supervisão do Conselho: As alterações à sua Política de Dimensionamento Responsável são propostas pelo CEO e pelo Responsável pelo Dimensionamento Responsável e aprovadas pelo Conselho de Administração, em consulta com o Fundo de Benefícios de Longo Prazo.

Implicações Regulatórias e Políticas

A Anthropic pretende que sua Política de Dimensionamento Responsável informe as melhores práticas da indústria e possa servir como um protótipo para futuras regulamentações de IA. A política é projetada para ser proporcional, iterativa e exportável, equilibrando inovação com medidas de segurança rigorosas.

Quais padrões de segurança são implementados para o treinamento e implantação dos modelos de IA da Anthropic

A Anthropic emprega uma abordagem baseada em risco para a segurança da IA, usando os Padrões de Nível de Segurança da IA (ASL). Esses padrões consistem em medidas técnicas e operacionais projetadas para garantir o treinamento e a implantação seguros de modelos de IA de fronteira.

Padrões ASL: Implantação e Segurança

Atualmente, as definições de ASL são divididas em duas categorias:

  • Padrões de Implantação: Esses padrões incluem medidas tomadas para garantir que os modelos de IA sejam usados com segurança, alinhando controles técnicos, operacionais e de políticas para mitigar o potencial de uso indevido catastrófico tanto de usuários externos (ou seja, usuários e clientes da Anthropic) quanto de usuários internos (ou seja, funcionários da Anthropic).
  • Padrões de Segurança: Esses padrões incluem medidas técnicas, operacionais e de políticas para proteger os modelos de IA contra acesso não autorizado, roubo ou comprometimento de sistemas internos por atores maliciosos.

Todos os modelos da Anthropic devem atender aos Padrões ASL-2 de Implantação e Segurança, que incluem:

  • Publicar Model Cards que descrevam as capacidades, limitações, avaliações e casos de uso pretendidos do modelo.
  • Impor uma Política de Uso que restringe casos de uso catastróficos e de alto dano, como gerar conteúdo que represente riscos graves para a humanidade ou cause dano direto a indivíduos.
  • Usar treinamento de inofensividade, como IA Constitucional, e mecanismos de detecção automatizados para treinar modelos para recusar solicitações que auxiliem na causa de danos.
  • Fornecer aos usuários canais de relatório de vulnerabilidades e uma recompensa por bugs para jailbreaks universais.
  • Adesão a análises robustas de segurança de fornecedores e provedores, medidas de segurança física, utilização de princípios de segurança por design e implementação de infraestrutura de segurança padrão, software de monitoramento, ferramentas de gerenciamento de acesso e criptografia de disco.

Acionando Padrões Mais Altos: Limiares de Capacidade e Salvaguardas Necessárias

À medida que as capacidades do modelo de IA aumentam, a Anthropic usa um sistema de Limiares de Capacidade e Salvaguardas Necessárias para determinar quando as medidas de segurança devem ser fortalecidas. Um Limiar de Capacidade indica quando uma atualização nas proteções é necessária, acionando uma mudança de um Padrão ASL-N para um Padrão ASL-N+1, ou mesmo superior. As Salvaguardas Necessárias, então, especificam quais padrões ASL devem ser atendidos. As necessidades específicas de diferentes modelos de IA variam, portanto, nem sempre é necessário atualizar os Padrões de Implantação e Segurança simultaneamente.

Avaliando as Capacidades do Modelo

A Anthropic conduz avaliações rigorosas para determinar se as capacidades de um modelo ultrapassam os Limiares de Capacidade estabelecidos. Isso envolve:

  • Avaliações Preliminares: Essas avaliações são conduzidas para determinar se uma avaliação mais abrangente é necessária e comparar os modelos com base em testes automatizados em domínios relevantes para o risco e o impacto dos métodos de ajuste fino.
  • Testes Abrangentes: Se as avaliações preliminares indicarem que o modelo está se aproximando de uma linha vermelha, este teste avaliará se é improvável que o modelo atinja quaisquer Limiares de Capacidade relevantes, na ausência de avanços surpreendentes em aprimoramentos de pós-treinamento amplamente acessíveis. Este teste deve satisfazer critérios como Mapeamento de Modelo de Ameaças, realização de Avaliações Empíricas, demonstração de resultados limitados de Elicitação e Previsão.

Se testes abrangentes revelarem que é provável que um modelo ultrapasse um Limiar de Capacidade, a Anthropic agirá como se o limiar tivesse sido ultrapassado, atualizando para Salvaguardas Necessárias ASL-3 e conduzindo um acompanhamento para avaliar a necessidade de Padrões ASL-4.

Garantindo Salvaguardas Adequadas: Requisitos ASL-3

Para atender às Salvaguardas Necessárias ASL-3, a Anthropic conduzirá uma avaliação de salvaguardas para:

  • Avaliar se as medidas implementadas são robustas contra tentativas persistentes de uso indevido de capacidades perigosas, conduzindo Modelagem de Ameaças, instituindo Defesa em Profundidade, Red-Teaming, Remediação Rápida e estabelecendo Monitoramento.
  • Garantir que os modelos sejam altamente protegidos contra a maioria dos invasores que tentam roubar pesos de modelo, usando as Melhores Práticas de Governança, aplicando Estruturas de Segurança, passando por Auditorias e garantindo que as medidas possam ser utilizadas em Ambientes de Terceiros.

Se as Salvaguardas Necessárias ASL-3 não puderem ser implementadas imediatamente, medidas provisórias de mitigação de risco serão aplicadas.

Governança e Transparência

Para facilitar a implementação eficaz desta política em toda a empresa, a Anthropic se comprometeu com várias medidas internas de governança:

  • Manter o cargo de Responsável pelo Aumento de Escala Responsável, para supervisionar o design e a implementação eficazes da política.
  • Estabelecer processos para receber notificações anônimas por meio das quais os funcionários da Anthropic podem notificar o Responsável pelo Aumento de Escala Responsável sobre possíveis ocorrências de não conformidade.
  • Desenvolver procedimentos internos de segurança para cenários de incidentes.

Para promover o diálogo público sobre a regulamentação dos riscos do modelo de IA de fronteira e para permitir o exame das ações da Anthropic, a empresa se comprometerá a:

  • Divulgar publicamente materiais importantes, com informações confidenciais removidas, relacionados à avaliação e implantação de modelos de IA.
  • Solicitar contribuições de especialistas externos em domínios relevantes.

Como os Limiares de Capacidade são utilizados para determinar a necessidade de salvaguardas aprimoradas

No cerne da governança de risco da IA está o conceito de “Limiares de Capacidade”. Esses limiares atuam como gatilhos cruciais, sinalizando quando as habilidades de um modelo de IA atingiram um ponto em que as salvaguardas existentes não são mais suficientes e precisam ser atualizadas. Pense nisso como uma linha vermelha em um motor – uma vez ultrapassada, medidas de proteção mais robustas são essenciais.

Especificamente, um Limiar de Capacidade indica:

  • Um aumento significativo no nível de risco se o modelo permanecer sob as salvaguardas atuais.
  • Uma necessidade correspondente de atualizar as salvaguardas para um padrão de Nível de Segurança de IA (ASL) mais alto.

Na prática, exceder um Limiar de Capacidade aciona uma mudança de um Padrão ASL-N para um Padrão ASL-N+1 (ou em alguns casos, diretamente para um nível ainda mais alto). A resposta apropriada (como a implementação de salvaguardas ASL-3) é determinada por:

  • Avaliação de Capacidades: Os modelos são rotineiramente testados para determinar o quão próximos eles estão de exceder os limiares de capacidade predefinidos. As avaliações preliminares determinam quando testes mais abrangentes são necessários.
  • Mapeamento do modelo de ameaças: Mapeamento dos casos mais prováveis.
  • Elicitação e Avaliação: Demonstração de que, quando dados recursos suficientes para extrapolar para atacantes realistas, os pesquisadores não conseguem obter resultados úteis do modelo nas tarefas relevantes.
  • Salvaguardas Necessárias Correspondentes: Dependendo do limiar excedido, as Salvaguardas Necessárias específicas descrevem quais Padrões ASL devem ser atendidos. Nem sempre é necessário atualizar os Padrões de Implantação e Segurança.

A identificação e aplicação desses Limiares de Capacidade são a pedra angular da gestão proporcional de riscos no desenvolvimento de IA. Ao monitorar de perto as capacidades do modelo e responder com salvaguardas aprimoradas apropriadas, os desenvolvedores visam equilibrar a inovação com a segurança, garantindo que a IA beneficie a sociedade sem causar danos inaceitáveis.

Quais são as Salvaguardas Necessárias designadas associadas a vários Limiares de Capacidade

À medida que os modelos de IA evoluem para além da linha de base ASL-2, a indústria reconhece que limiares de capacidade mais elevados exigem salvaguardas mais fortes. Um Limiar de Capacidade atua como um gatilho, sinalizando a necessidade de atualizar as proteções para um padrão de Nível de Segurança de IA (ASL) mais elevado.

Principais Conclusões:

  • As Salvaguardas Necessárias são projetadas para mitigar os riscos a níveis aceitáveis, indicando um equilíbrio entre os benefícios do desenvolvimento de modelos de fronteira e os perigos potenciais.
  • A Anthropic defende a adoção abrangente destes padrões em toda a indústria, enfatizando a importância de investir em investigação e desenvolvimento para uma implementação robusta.

Armas CBRN

As capacidades de desenvolvimento de armas Químicas, Biológicas, Radiológicas e Nucleares (CBRN) acionam diferentes salvaguardas:

  • CBRN-3: A capacidade de ajudar significativamente indivíduos com conhecimentos básicos de STEM a criar/obter e implantar armas CBRN. Este gatilho requer um Padrão de Implantação ASL-3 e um Padrão de Segurança ASL-3, protegendo contra o uso indevido e o roubo de peso do modelo por atores não estatais.
  • CBRN-4: A capacidade de elevar substancialmente as capacidades de desenvolvimento de CBRN de programas estatais com recursos moderados. Espera-se que este limiar exija Padrões de Implantação e Segurança ASL-4; mais detalhes serão divulgados numa atualização futura.

Investigação e Desenvolvimento Autónomos de IA

As capacidades de Investigação e Desenvolvimento Autónomos de IA também acionam salvaguardas específicas:

  • IA P&D-4: A capacidade de automatizar totalmente o trabalho de um Investigador iniciante, apenas remoto, na Anthropic. Requer o Padrão de Segurança ASL-3 e um caso afirmativo que identifique e mitigue os riscos imediatos de modelos que perseguem objetivos desalinhados.
  • IA P&D-5: A capacidade de causar uma aceleração dramática na taxa de demandas de dimensionamento eficaz exige, no mínimo, o Padrão de Segurança ASL-4 (potencialmente superior), juntamente com um caso afirmativo.

O potencial ponto de verificação de Autonomia do Modelo para executar autonomamente uma ampla gama de tarefas de engenharia de software de 2 a 8 horas acionará a implementação da Segurança ASL-3.

Considerações sobre Operações Cibernéticas:

A capacidade de melhorar ou automatizar significativamente ataques cibernéticos destrutivos sofisticados é reconhecida como uma capacidade que requer investigação significativa. Isso envolve o envolvimento de especialistas em segurança cibernética para avaliar o potencial dos modelos de fronteira para melhorar e mitigar as ameaças cibernéticas e considerar controlos de acesso em níveis ou implementações faseadas.

Como a Anthropic avalia as capacidades de seus modelos de IA

A Anthropic emprega uma abordagem multicamadas para avaliar as capacidades de seus modelos de IA, garantindo um escalonamento responsável que se alinha com os riscos potenciais. Sua estrutura se concentra nos Padrões de Nível de Segurança de IA (Padrões ASL), onde o aumento das capacidades do modelo exige salvaguardas mais fortes. A empresa testa rotineiramente os modelos para verificar se eles estão muito abaixo de certos limites de capacidade para que o padrão ASL-2 permaneça adequado.

Limiares de Capacidade

Os Limiares de Capacidade atuam como gatilhos, indicando quando as salvaguardas existentes devem ser atualizadas para um Padrão ASL superior. Esses limiares são níveis de capacidade predeterminados que, se atingidos, significam um aumento significativo no risco, exigindo proteções aprimoradas. A abordagem da Anthropic tem como alvo específico riscos catastróficos, como os relacionados a armas Químicas, Biológicas, Radiológicas e Nucleares (QBRN) e Pesquisa e Desenvolvimento de IA Autônoma (P&D de IA).

Procedimentos de Avaliação

A Anthropic utiliza um processo de avaliação em etapas:

  • Avaliações Preliminares: Estas avaliações iniciais determinam se um modelo requer uma análise mais aprofundada (“avaliação abrangente”). Isso é acionado se o modelo for “notavelmente mais capaz”, o que é definido como: 1. notavelmente mais performático em testes automatizados em domínios relevantes para o risco (definido como 4x ou mais em Computação Efetiva), ou 2. Seis meses de ajuste fino e outros métodos de eliciação de capacidade foram acumulados. Além disso, o Oficial de Escalonamento Responsável pode, a seu critério, determinar que uma avaliação abrangente é justificada.
  • Avaliações Abrangentes: Para modelos que excedem os critérios de avaliação preliminar, uma avaliação abrangente avalia a probabilidade de atingir os Limiares de Capacidade. Este processo envolve:
    • Mapeamento de modelos de ameaças: Criar um caso convincente de que mapeamos os modelos de ameaças mais prováveis e consequentes.
    • Avaliações: Projetar e executar testes empíricos que forneçam fortes evidências de que o modelo não possui as habilidades necessárias.
    • Eliciação: Demonstrar que, quando dados recursos suficientes para extrapolar para atacantes realistas, os pesquisadores não conseguem obter resultados suficientemente úteis do modelo nas tarefas relevantes.
    • Previsão: Fazer previsões informais sobre a probabilidade de que treinamento e eliciação adicionais melhorem os resultados dos testes entre o momento do teste e a próxima rodada esperada de testes abrangentes.

Tomada de Decisão

Após a avaliação abrangente, um Relatório de Capacidade documenta as descobertas e apresenta um caso sobre se o modelo permanece suficientemente abaixo dos Limiares de Capacidade: O relatório é escalado para o CEO e o Oficial de Escalonamento Responsável, que (1) fará a determinação final sobre se estabelecemos suficientemente que é improvável que atinjamos o Limiar de Capacidade e (2) decidirá quaisquer questões relacionadas à implantação. Em geral, conforme observado nas Seções 7.1.4 e 7.2.2, solicitaremos feedback de especialistas internos e externos sobre o relatório, bem como as conclusões do CEO e do RSO para informar futuros refinamentos de nossa metodologia.

Se o modelo for considerado como tendo ultrapassado um limiar, a Anthropic atualiza para as Salvaguardas Necessárias ASL-3 e conduz uma avaliação de capacidade de acompanhamento para garantir que os Padrões ASL-4 não sejam necessários.

Transparência e Governança

A Anthropic enfatiza a transparência ao divulgar publicamente materiais importantes relacionados à avaliação e implantação de seus modelos, após remover informações confidenciais. A empresa também se compromete com medidas de governança interna, incluindo a manutenção de um Oficial de Escalonamento Responsável, o estabelecimento de canais de denúncia anônimos para possível não conformidade e o desenvolvimento de procedimentos internos de segurança para resposta a incidentes.

Quais processos são essenciais para avaliar a eficácia das salvaguardas implementadas

Avaliar a eficácia das salvaguardas implementadas é um processo multifacetado que envolve avaliação rigorosa e melhoria contínua. Aqui está o detalhamento:

Avaliação das Salvaguardas

Esta avaliação é fundamental para determinar se as medidas implementadas atendem às Salvaguardas Obrigatórias ASL-3. Um Relatório de Salvaguardas documenta minuciosamente a implementação dessas salvaguardas.

  • Avaliação do Padrão de Implantação ASL-3: Avalia a robustez contra tentativas persistentes de uso indevido. Isso envolve:
    • Modelagem de Ameaças: Mapeamento crítico de possíveis vetores de uso indevido catastrófico.
    • Defesa em Profundidade: Construção de defesas em camadas para detectar uso indevido. Emprego de técnicas de recusa de dano.
    • Red-Teaming: Demonstrar que atores de ameaças realistas não conseguem consistentemente obter respostas que aumentem sua capacidade de causar danos catastróficos.
    • Remediação Rápida: Identificação e correção rápidas de comprometimentos do sistema.
    • Monitoramento: Revisão contínua do desempenho do sistema em relação às faixas de risco aceitas. Monitoramento de respostas a recompensas de jailbreak, fazendo análises históricas e monitoramento de antecedentes.
    • Usuários Confiáveis: Estabelecer critérios para compartilhar modelos com salvaguardas reduzidas com usuários confiáveis, usando uma combinação de verificação de usuários, controles de acesso seguros, monitoramento, retenção de logs e protocolos de resposta a incidentes.
    • Ambientes de Terceiros: Documentar como todos os modelos atenderão a esses critérios, mesmo em implantações de terceiros com salvaguardas diferentes.
  • Avaliação do Padrão de Segurança ASL-3: Determina se as medidas são altamente protegidas contra o roubo de peso do modelo. Isso envolve:
    • Modelagem de Ameaças: Usar estruturas como MITRE ATT&CK para mapear ameaças, ativos e vetores de ataque.
    • Alinhamento de Estruturas de Segurança: Uso de estruturas de segurança padrão do setor para riscos identificados.
      • Construir perímetros fortes e controles de acesso, garantindo proteção contra acesso não autorizado. Isso inclui uma combinação de segurança física, criptografia, segurança em nuvem, política de infraestrutura, gerenciamento de acesso e minimização e monitoramento do acesso ao peso.
      • Proteger os links na cadeia de sistemas e software usados para desenvolver modelos, para evitar que componentes comprometidos sejam introduzidos e para garantir que apenas código e hardware confiáveis sejam usados. Isso inclui uma combinação de inventário de software, segurança da cadeia de suprimentos, integridade de artefatos, autorização binária, aquisição de hardware e ciclo de vida de desenvolvimento de pesquisa seguro.
      • Identificar e mitigar proativamente as ameaças por meio de monitoramento contínuo e eficaz, testes para vulnerabilidades e armadilhas para potenciais invasores. Isso inclui uma combinação de aplicação de patches de endpoint, testes de segurança de produtos, gerenciamento de logs, monitoramento de ativos e técnicas de decepção de intrusos.
      • Investir recursos suficientes em segurança. Atender a este padrão de segurança requer aproximadamente 5-10% dos funcionários dedicados à segurança e trabalho adjacente à segurança.
      • Alinhar, quando apropriado, com as orientações existentes sobre como proteger os pesos do modelo.
    • Auditorias: Auditar o design e a implementação do programa de segurança, compartilhando as descobertas com a gerência. Isso inclui validação independente da modelagem de ameaças e resultados da avaliação de risco; uma auditoria baseada em amostragem da eficácia operacional dos controles definidos; e testes periódicos, amplamente abrangentes e independentes com red-teamers especializados que são renomados no setor e foram reconhecidos em desafios competitivos.
    • Ambientes de Terceiros: Documentar como todos os modelos atenderão a esses critérios, mesmo em implantações de terceiros com salvaguardas diferentes.

Processo de Decisão de Salvaguardas

O processo para determinar se as Salvaguardas Obrigatórias ASL-3 foram atendidas inclui:

  1. Compilar um Relatório de Salvaguardas para cada Salvaguarda Obrigatória. Apresentar um caso afirmativo para satisfazê-las.
  2. Escalar o(s) Relatório(s) de Salvaguardas para o CEO e o Diretor de Escalonamento Responsável.
  3. Solicitar feedback de especialistas internos e externos sobre o relatório.
  4. Compartilhar a decisão, o Relatório de Salvaguardas e o feedback interno e externo com o Conselho de Administração e o Fundo de Benefícios de Longo Prazo.
  5. Revisitar e reaprovar as Salvaguardas Obrigatórias ASL-3 pelo menos anualmente.

Avaliação da Capacidade de Acompanhamento

Paralelamente à atualização de um modelo para as Salvaguardas Obrigatórias, a política é atualizada para incluir quaisquer Limiares de Capacidade adicionais e uma avaliação de capacidade de acompanhamento é conduzida.

Governança e Transparência

A governança interna envolve o Diretor de Escalonamento Responsável, que é responsável pelo design e implementação da política. A avaliação externa envolve a colaboração com especialistas externos em domínios relevantes no processo de desenvolvimento e condução de avaliações de capacidade e salvaguardas. A empresa também busca uma revisão de conformidade processual e planeja notificar uma entidade relevante do governo dos EUA se um modelo exigir proteções mais fortes do que o Padrão ASL-2.

Qual é o procedimento para determinar estratégias de implantação adequadas e resultados de escalonamento para modelos Anthropic

A Anthropic emprega um processo estruturado e multifásico para determinar estratégias de implantação adequadas e resultados de escalonamento para seus modelos de IA. Este processo é orientado pela Política de Escalonamento Responsável (RSP) e sua dependência dos Padrões de Nível de Segurança de IA (ASL). O objetivo final é prevenir danos catastróficos e mitigar riscos a níveis aceitáveis, equilibrando a inovação com salvaguardas robustas.

Avaliação de Capacidade

O primeiro passo envolve uma Avaliação de Capacidade, que determina o quão próximas as capacidades de um modelo estão dos Limiares de Capacidade estabelecidos. Esses limiares sinalizam quando os riscos potenciais de um modelo exigem salvaguardas aprimoradas (passando de ASL-2 para ASL-3, por exemplo). O processo de avaliação inclui:

  • Avaliação Preliminar: Uma verificação rápida para ver se o modelo é “notavelmente mais capaz” do que os modelos anteriores. As métricas aqui são testes automatizados em “domínios relevantes para o risco” (melhora medida como 4x em Compute Eficaz) ou acumulação de melhorias pós-treinamento comparáveis a seis meses de refinamentos contínuos.
  • Avaliação Abrangente: Necessária se um modelo exceder o limiar de “notavelmente mais capaz”. Esta avaliação testa rigorosamente o potencial para atingir Limiares de Capacidade, examinando combinações de atores, caminhos de ataque e o que seria necessário para causar danos. Isso inclui:

    • Mapeamento de modelo de ameaça para identificar modelos de ameaça consequenciais prováveis.
    • Testes empíricos para mostrar que o modelo não tem capacidade ligada a riscos.
    • Exercícios de solicitação para determinar se os pesquisadores podem obter resultados úteis, mesmo sem mecanismos de segurança.
    • Previsão sobre como o treinamento adicional pode aumentar os resultados dos testes.
  • Relatório de Capacidade: Um documento detalhado compilando as descobertas da avaliação para defender que o Limiar de Capacidade está suficientemente distante, e avançando recomendações de implantação. Este documento, juntamente com feedback interno e externo, vai para o CEO da Anthropic e o Oficial de Escalonamento Responsável para uma determinação final.

Se a avaliação abrangente demonstra que um modelo cai suficientemente abaixo de um Limiar de Capacidade, ele pode continuar a implantação cumprindo o Padrão ASL-2. No entanto, se a avaliação sugerir que o modelo possivelmente ultrapassou um limiar, ele aciona uma atualização para as Salvaguardas Necessárias ASL-3, juntamente com uma avaliação de capacidade de acompanhamento para determinar se o Padrão ASL-4 é necessário.

Avaliação de Salvaguardas

Se um modelo ultrapassa um Limiar de Capacidade, uma Avaliação de Salvaguardas é iniciada para garantir a mitigação de risco apropriada, verificando se as medidas implementadas satisfazem as Salvaguardas Necessárias ASL-3. Este processo inclui a elaboração de um Relatório de Salvaguardas para documentar evidências de que o modelo atende aos critérios dos padrões de limiares:

  • Atender aos Padrões de Implantação ASL-3 requer “defesa em profundidade” usando camadas para detectar ataques, red-teaming, remediação rápida e usuários confiáveis com controles de segurança alternativos.
  • Atender aos Padrões de Segurança ASL-3 garante a proteção do peso do modelo com controles de segurança alinhados à estrutura, modelagem de ameaças usando a Estrutura MITRE ATT&CK e controles de perímetro e acesso.

Se vulnerabilidades forem encontradas, a implantação do modelo é restrita. Caso contrário, a implantação pode prosseguir.

Implantação e Resultados de Escalonamento

Em última análise, a Anthropic pode prosseguir com a implantação e o escalonamento adicional se:

  • As capacidades do modelo estão muito distantes dos Limiares de Capacidade existentes, de modo que seu ASL-2 atual seja apropriado.
  • O modelo ultrapassou os Limiares de Capacidade, mas atende às Salvaguardas Necessárias ASL-3.

Se um modelo requer salvaguardas ASL-3, mas essas salvaguardas não podem ser implementadas em tempo hábil, a política exige ação imediata para reduzir o risco provisório até que as medidas apropriadas estejam em vigor. Restrições mais fortes, como a desativação do modelo ou a exclusão dos pesos do modelo, podem ser impostas se a mitigação de risco provisório não for plausível. Além disso, as atividades de pré-treinamento são monitoradas para interromper os modelos de treinamento que se aproximam ou excedem as capacidades dos modelos atualmente em análise no nível do Padrão ASL-3 até que salvaguardas adequadas sejam implementadas.

Governança e Transparência

Medidas de governança são implementadas internamente em toda a empresa para garantir a conformidade total da Política de Escalonamento Responsável. A entrada externa é procurada e informações importantes relacionadas aos testes de cada modelo são frequentemente compartilhadas publicamente, com detalhes confidenciais removidos.

Quais protocolos estão em vigor para lidar com cenários em que as salvaguardas necessárias não podem ser implementadas imediatamente

Quando um modelo atinge um ponto em que as Salvaguardas Requeridas ASL-3 são consideradas necessárias, mas essas salvaguardas não podem ser implementadas imediatamente, a Anthropic se compromete com uma abordagem escalonada para a mitigação de riscos. O objetivo é reduzir o risco provisório a níveis aceitáveis até que as salvaguardas ASL-3 completas estejam operacionais:

Medidas Provisórias

O CEO e o Diretor de Escalada Responsável (RSO) podem aprovar medidas provisórias que ofereçam o mesmo nível de garantia que o Padrão ASL-3, mas que sejam mais rápidas ou simples de implementar. Estas podem incluir:

  • Bloquear respostas do modelo.
  • Rebaixar para um modelo menos capaz em áreas específicas.
  • Aumentar a sensibilidade dos sistemas de monitoramento automatizados.
  • Armazenar pesos do modelo em uma rede isolada de propósito único que atenda ao Padrão de Segurança ASL-3.

Qualquer plano desse tipo é compartilhado com o Conselho de Administração da Anthropic e o Fundo de Benefícios de Longo Prazo.

Restrições Mais Fortes

Se as medidas provisórias forem insuficientes para mitigar adequadamente o risco, a Anthropic implementará restrições mais rigorosas, como:

  • Desativar o modelo e substituí-lo por um modelo que esteja abaixo do Limiar de Capacidade. Assim que os requisitos do Padrão de Implantação ASL-3 forem atendidos, o modelo poderá ser reimplantado.
  • Excluir pesos do modelo no contexto de segurança. A Anthropic acredita que com o uso de implantação provisória e proteções de segurança raramente haverá necessidade de restrições mais fortes.

Monitoramento do Pré-treinamento

A Anthropic não treinará modelos com capacidades comparáveis ou maiores do que aquele que exige o Padrão de Segurança ASL-3, operacionalizado como 1x ou mais em Computação Efetiva, até que o Padrão de Segurança ASL-3 seja implementado. Se as capacidades do modelo de pré-treinamento forem comparáveis ou maiores, o treinamento será pausado até que salvaguardas suficientes estejam em vigor.

Quais estruturas internas de governança apoiam a Política de Escalabilidade Responsável

Para implementar eficazmente a Política de Escalabilidade Responsável (PER) em toda a organização, a Anthropic compromete-se a manter várias medidas-chave de governança interna. Estas estruturas são projetadas para garantir conformidade, transparência e responsabilidade no desenvolvimento e implantação de modelos de IA.

Elementos-chave de Governança

  • Responsável pela Escalabilidade Responsável (RER): Um membro da equipe designado é responsável por reduzir os riscos catastróficos associados aos modelos de IA. Os deveres do RER incluem propor atualizações de política, aprovar decisões de treinamento e implantação de modelos com base nas avaliações de capacidade e salvaguarda, revisar os principais contratos para consistência de política, supervisionar a implementação da política, abordar relatos de não conformidade, notificar o Conselho de Administração sobre não conformidade material e interpretar a política.

  • Preparação para Incidentes: Procedimentos internos de segurança são desenvolvidos para cenários de incidentes, como pausar o treinamento ao atingir os Limiares de Capacidade, responder a incidentes de segurança envolvendo pesos de modelo e abordar jailbreaks ou vulnerabilidades graves em modelos implantados. Exercícios são conduzidos para garantir a prontidão para esses cenários.

  • Transparência Interna: Resumos dos Relatórios de Capacidade e Relatórios de Salvaguardas são compartilhados com funcionários com autorização regular, com informações altamente confidenciais redigidas. Uma versão minimamente redigida é compartilhada com um subconjunto de funcionários para apresentar considerações relevantes de segurança técnica.

  • Revisão Interna: O feedback é solicitado das equipes internas sobre os Relatórios de Capacidades e Salvaguardas para refinar as metodologias e identificar as fraquezas.

  • Procedimentos de Não Conformidade: Um processo é mantido para que os funcionários da Anthropic relatem anonimamente possíveis casos de não conformidade com a PER. A política de denúncia de não conformidade protege os denunciantes de retaliação, estabelece um mecanismo para escalar os relatórios ao Conselho de Administração e exige rastreamento, investigação e ação corretiva para relatórios comprovados. O RER atualiza regularmente o Conselho sobre casos substanciais de não conformidade e tendências gerais.

  • Acordos de Empregados: Obrigações contratuais de não depreciação não são impostas a funcionários, candidatos ou ex-funcionários de uma forma que impeça ou desencoraje-os de levantar publicamente preocupações de segurança sobre a Anthropic. Acordos com cláusulas de não depreciação não impedirão o levantamento de preocupações de segurança ou a divulgação da existência da cláusula.

  • Mudanças na Política: As alterações na PER são propostas pelo CEO e RER e aprovadas pelo Conselho de Administração, em consulta com o Long-Term Benefit Trust (LTBT). A versão atual da PER está acessível online, com atualizações disponibilizadas publicamente antes que as alterações entrem em vigor, juntamente com um changelog.

Como a Anthropic garante a transparência e coleta feedback externo sobre suas práticas de segurança de IA

A Anthropic tem como objetivo promover o diálogo público sobre a regulamentação da IA e garantir que as partes interessadas possam examinar suas ações por meio de várias medidas principais:

Divulgações Públicas

A empresa se compromete a divulgar publicamente informações importantes sobre a avaliação e a implementação de seus modelos de IA. Isso exclui detalhes confidenciais, mas inclui resumos de relatórios de Capacidade e Salvaguardas quando um modelo é implantado. Esses relatórios detalham as medidas de segurança que foram tomadas. A Anthropic também divulgará planos para avaliações abrangentes de capacidade atuais e futuras, bem como salvaguardas de implementação e segurança. A empresa pretende divulgar periodicamente informações sobre relatórios internos de potenciais incidentes de não conformidade e outros desafios de implementação que encontrar.

Feedback de Especialistas

A Anthropic solicitará expertise externa durante o desenvolvimento de avaliações de capacidade e salvaguarda. Este processo de consulta também pode se estender antes da tomada de decisão final sobre essas avaliações.

Notificação ao Governo dos EUA

A política exige a notificação a uma entidade relevante do Governo dos EUA se um modelo necessitar de proteções mais fortes do que o Padrão ASL-2.

Revisão de Conformidade Processual

Em uma base aproximadamente anual, a Anthropic comissiona uma revisão de terceiros para avaliar se a empresa aderiu aos principais compromissos processuais da política. Essas revisões se concentram especificamente na adesão aos requisitos do plano, em vez de tentar julgar os resultados alcançados. A Anthropic também realiza o mesmo tipo de revisão internamente em uma programação mais regular.

Comunicação Pública

A Anthropic mantém uma página pública (www.anthropic.com/rsp-updates) para fornecer visões gerais de relatórios de capacidade e salvaguarda anteriores, atualizações relacionadas ao RSP e planos para o futuro. A página fornece detalhes para facilitar conversas sobre as melhores práticas do setor para salvaguardas, avaliações de capacidade e solicitação.

Governança e Transparência

A Política de Dimensionamento Responsável (PDR) da Anthropic enfatiza tanto a governança interna quanto a transparência externa. Medidas importantes estão em vigor para garantir a implementação da política, promover a responsabilização e fomentar a colaboração.

Governança Interna:

  • Oficial de Dimensionamento Responsável (ODR): Um membro da equipe designado supervisiona a redução de riscos, garantindo o design e a implementação eficazes da PDR. Os deveres do ODR incluem atualizações da política, aprovações de decisão, análises de contrato, alocação de recursos e tratamento de relatórios de não conformidade.
  • Prontidão: A Anthropic desenvolveu procedimentos de segurança internos para cenários de incidentes, incluindo a suspensão do treinamento, a resposta a violações de segurança e o tratamento de vulnerabilidades do modelo.
  • Transparência: Resumos dos Relatórios de Capacidade e Relatórios de Salvaguardas são compartilhados internamente para promover a conscientização e facilitar as considerações técnicas de segurança.
  • Revisão Interna: O feedback é solicitado das equipes internas sobre os Relatórios de Capacidade e Salvaguardas para refinar as metodologias e identificar as fraquezas.
  • Não Conformidade: Um processo permite que os funcionários relatem anonimamente o não cumprimento da política ao ODR. Uma política protege os repórteres contra retaliação e estabelece mecanismos de escalonamento. Todos os relatórios são rastreados, investigados e tratados com medidas corretivas.
  • Acordos de funcionários: As obrigações contratuais de não depreciação são construídas de forma a não impedir ou desencorajar os funcionários de expressar preocupações de segurança sobre a Anthropic.
  • Alterações na Política: As alterações a esta política são implementadas apenas pelo CEO e pelo Oficial de Dimensionamento Responsável, conforme aprovado pelo Conselho de Administração, em consulta com o Fundo de Benefício de Longo Prazo.

Transparência e Input Externo:

  • Divulgações Públicas: Informações importantes sobre avaliação e implantação do modelo são divulgadas publicamente, incluindo resumos dos Relatórios de Capacidade e Salvaguardas, planos para avaliações e detalhes sobre salvaguardas, sujeitos à redação de informações confidenciais.
  • Input de Especialistas: Especialistas externos são consultados durante as avaliações de capacidade e salvaguarda e nos processos de tomada de decisão final.
  • Notificação ao Governo dos EUA: Uma entidade governamental relevante dos EUA será notificada se um modelo exigir mais proteções do que ASL-2.
  • Revisão de Conformidade Processual: Aproximadamente anualmente, e mais regularmente internamente, um terceiro se concentra em se as políticas são seguidas, não em como as questões foram resolvidas.
Em última análise, a abordagem em camadas da Anthropic para a segurança da IA procura navegar no complexo panorama das capacidades da IA em rápido avanço. Ao identificar proativamente os limiares de risco, avaliar rigorosamente as capacidades do modelo e adaptar as salvaguardas em conformidade, emerge uma estratégia proporcional, concebida para fomentar a inovação e, simultaneamente, mitigar potenciais danos. O compromisso com a governação interna e a transparência externa sublinha uma dedicação ao desenvolvimento responsável da IA e à procura contínua das melhores práticas para o benefício da sociedade.

More Insights

Aliança Escocesa de IA Destaca Ética em Inteligência Artificial

A Scottish AI Alliance lançou seu Relatório de Impacto 2024/2025, destacando um ano transformador de progresso na promoção de inteligência artificial confiável, ética e inclusiva na Escócia. O...

Controles de IA de Trump: Oportunidades e Desafios para o Mercado

A administração Trump está se preparando para novas restrições nas exportações de chips de IA para a Malásia e Tailândia, visando impedir que processadores avançados cheguem à China por meio de...

LLMOps: Potencializando IA Responsável com Python

Neste ambiente altamente competitivo, não é suficiente apenas implantar Modelos de Linguagem de Grande Escala (LLMs) — é necessário um robusto framework LLMOps para garantir a confiabilidade e o...

Fortalecendo a Proteção de Dados e a Governança de IA em Cingapura

Cingapura está respondendo proativamente aos desafios evolutivos impostos pelo uso de dados na era da inteligência artificial (IA), afirmou a Ministra de Comunicações e Informação, Josephine Teo. O...

Vigilância por IA e a Lacuna de Governança na Ásia-Pacífico

A tecnologia de vigilância alimentada por IA, especialmente o reconhecimento facial, é um exemplo clássico de tecnologias de uso duplo, promovidas como ferramentas de prevenção ao crime, mas...