Quais são os princípios fundamentais que orientam a abordagem da Política de Dimensionamento Responsável à gestão de riscos?
A Política de Dimensionamento Responsável (RSP) da Anthropic depende de três princípios fundamentais para governar o risco da IA, projetados para serem proporcionais, iterativos e exportáveis, conforme afirmam em seu documento.
Proporcionalidade: Adequação das Salvaguardas aos Níveis de Risco
A RSP apresenta os Padrões de Nível de Segurança da IA (ASL), que estabelecem referências técnicas e operacionais vinculadas a níveis de risco específicos. A ideia é implementar salvaguardas que correspondam aos perigos potenciais de um modelo de IA, garantindo proteções rigorosas onde necessário, sem impedir desnecessariamente a inovação. Isso se resume a concentrar recursos nos modelos de maior risco, ao mesmo tempo em que oferece maior flexibilidade para sistemas de menor risco.
Iteração: Adaptação às Capacidades de IA em Rápida Evolução
O princípio iterativo reconhece o rápido avanço na IA. O documento afirma que, com a rapidez com que a tecnologia de IA está evoluindo, é impossível antecipar as medidas de segurança e proteção necessárias para modelos que estão muito além da fronteira atual. A Anthropic se compromete a medir continuamente as capacidades do modelo e ajustar as salvaguardas de acordo, pesquisando constantemente os riscos potenciais e as técnicas de mitigação e aprimorando a própria estrutura de gerenciamento de riscos.
Exportabilidade: Estabelecendo um Padrão da Indústria
A Anthropic pretende demonstrar como a inovação e a segurança podem coexistir. Ao compartilhar sua abordagem de governança de risco externamente, eles esperam estabelecer uma nova referência para o setor e incentivar uma adoção mais ampla de estruturas semelhantes. O objetivo é influenciar a regulamentação, compartilhando descobertas com formuladores de políticas e outras empresas de IA, mostrando uma abordagem escalável para o gerenciamento de riscos.
O documento também deixa claro que, embora a RSP se concentre principalmente nos riscos catastróficos, a Anthropic também reconhece outras preocupações. Isso inclui o uso responsável de modelos de IA de acordo com sua Política de Uso, prevenção de desinformação, violência, comportamento odioso e fraude, que são tratados por meio de medidas técnicas para a aplicação de padrões de confiança e segurança.
Como os Limiares de Capacidade e as Salvaguardas Necessárias são utilizados na estrutura da política para gerenciar os riscos associados aos modelos de IA
A Política de Dimensionamento Responsável (RSP) da Anthropic utiliza Limiares de Capacidade e Salvaguardas Necessárias como pilares para gerenciar os riscos associados a modelos de IA cada vez mais poderosos. Pense nisso como um protocolo de segurança em etapas: quanto maior o risco potencial, mais fortes as proteções. Aqui está uma análise:
Conceitos-chave
Limiares de Capacidade: São níveis predefinidos de capacidade de IA que atuam como gatilhos. Quando um modelo atinge um limite, ele sinaliza um aumento significativo no risco e a necessidade de salvaguardas aprimoradas. Por exemplo, os limiares são especificados para habilidades relacionadas ao desenvolvimento de armas Químicas, Biológicas, Radiológicas e Nucleares (QBRN), e também para Pesquisa e Desenvolvimento Autônomos de IA (P&D de IA).
Salvaguardas Necessárias: São os padrões específicos do Nível de Segurança de IA (ASL) que devem ser atendidos para mitigar os riscos associados a um determinado Limiar de Capacidade. Esses padrões se enquadram em duas categorias:
- Padrões de Implantação: Garantem o uso seguro por usuários externos e equilibram o uso benéfico com os riscos de uso indevido catastrófico.
- Padrões de Segurança: São medidas técnicas, operacionais e políticas vitais para proteger os modelos de IA contra acesso não autorizado, roubo ou comprometimento. Pense em proteger os “pesos” do modelo.
Como funciona: passo a passo
A RSP emprega Limiares de Capacidade e Salvaguardas Necessárias em uma série de etapas de avaliação projetadas para mitigar proativamente o risco:
- Avaliação de Capacidade
Avaliação Preliminar: Modelos novos e existentes passam por testes para determinar se há algum aumento notável nas capacidades, desencadeando uma avaliação mais aprofundada.
Avaliação Abrangente: Com testes abrangentes, a Anthropic avalia se o modelo pode atingir algum limite mapeando ameaças substanciais, executando avaliações empíricas e medindo como os pesquisadores podem obter capacidades úteis do modelo. Além disso, eles fazem previsões informais para determinar se os testes melhorarão os resultados ao longo do tempo.
- Escalonamento e Ação:
Se um modelo ultrapassar um Limiar de Capacidade, a empresa atualiza para o ASL (por exemplo, ASL-3) de nível superior correspondente. Isso garante que o modelo atenda aos novos requisitos e padrões.
- Avaliação de Salvaguardas
Essas avaliações procuram determinar se as salvaguardas necessárias são satisfatórias. Os padrões de implantação ASL-3 exigem uma segurança robusta contra o uso indevido persistente, enquanto o Padrão de Segurança ASL-3 determina proteção de alto nível contra roubo de peso de atacantes não estatais.
- Avaliação de Capacidade de Acompanhamento:
Após a implementação, é necessário avaliar o novo modelo e medir se as capacidades de acompanhamento são suficientemente adequadas para uso.
Mitigação de Riscos na Prática
O objetivo final é alcançar um nível aceitável de risco. Se as capacidades atuais do modelo estiverem suficientemente abaixo dos limites existentes, ou se tiver ultrapassado esses limites, mas tiver as salvaguardas atualizadas em vigor, os modelos só podem ser usados ou implementados nesses dois casos.
- Medidas Provisórias: Se a implementação imediata do ASL-3 for impossível, medidas provisórias são adotadas que fornecem um nível semelhante de segurança.
- Restrições Mais Fortes: Além das medidas provisórias, as restrições podem envolver a implantação com um modelo abaixo de um limite de capacidade ou a exclusão de pesos atuais dentro do modelo atual.
- Monitoramento do Pré-treinamento: As capacidades do modelo de pré-treinamento devem ser monitoradas e comparadas com os modelos capazes existentes. Se o modelo de pré-treinamento tiver capacidades semelhantes, o treinamento é pausado até que os padrões de segurança sejam atendidos.
Principais Conclusões para Conformidade
- Gerenciamento Dinâmico de Riscos: A RSP reconhece que o gerenciamento de riscos de IA deve ser iterativo, ajustando as salvaguardas à medida que os modelos evoluem.
- Transparência e Responsabilidade: A divulgação pública de informações importantes, resumos de relatórios de Capacidade e Salvaguarda e a solicitação de contribuições de especialistas são componentes cruciais.
- Proporcionalidade: Equilibrar a inovação em IA com a segurança, implementando salvaguardas que sejam proporcionais à natureza e extensão dos riscos de um modelo de IA.
Os responsáveis pela conformidade devem monitorar atentamente os Limiares de Capacidade específicos definidos na RSP e garantir que os processos de desenvolvimento e implantação do modelo estejam alinhados com as Salvaguardas Necessárias correspondentes. Fique atento para obter informações adicionais à medida que a Anthropic continua a refinar sua abordagem à governança de risco de IA.
Quais são os componentes essenciais do processo de Avaliação de Salvaguardas
Para modelos de IA que ultrapassam os Limiares de Capacidade especificados, potencialmente indicando a necessidade de padrões mais elevados de Nível de Segurança de IA (ASL), uma Avaliação de Salvaguardas rigorosa é crucial. Este processo determina se as medidas de controlo de segurança e utilização adotadas satisfazem as Salvaguardas Necessárias do ASL-3.
Componentes-chave para o Padrão de Implantação ASL-3
Se um modelo acionar o Padrão de Implantação ASL-3, a avaliação se concentra na robustez das salvaguardas contra o uso indevido persistente. Os critérios para satisfazer isso incluem:
- Modelagem de ameaças: Mapeamento exaustivo de potenciais ameaças e vetores de ataque por meio dos quais o sistema implantado poderia ser categoricamente usado de forma indevida. Isso requer refinamento contínuo.
- Defesa em profundidade: Implementação de múltiplas camadas defensivas. Isso é projetado para detectar tentativas de uso indevido que ignoram as barreiras iniciais, como técnicas de recusa de danos que atingem altas taxas de recall.
- Red-teaming: Testes adversários realistas baseados em cenários que demonstram a improbabilidade de agentes de ameaças, com níveis de acesso e recursos plausíveis, extraírem informações que aprimorem significativamente sua capacidade de causar danos catastróficos.
- Remediação rápida: Processos que garantem a identificação e remediação imediatas de comprometimentos do sistema, como jailbreaks. Isso envolve correção rápida de vulnerabilidades, potencial escalonamento da aplicação da lei e retenção de dados para análise.
- Monitorização: Estabelecimento de métricas empíricas para garantir a segurança operacional dentro das faixas de risco aceitas. Também significa ter um processo para analisar regularmente o desempenho do sistema. Isso inclui a revisão de respostas a recompensas de jailbreak, a realização de análises históricas e a retenção dos logs necessários.
- Usuários confiáveis: Definição de critérios para compartilhamento de modelos controlados com “usuários confiáveis”, garantindo garantia de risco equivalente por meio de verificação do usuário, controles de acesso seguros, monitoramento, retenção de logs e resposta a incidentes.
- Ambientes de terceiros: Demonstração de adesão aos critérios mencionados, mesmo quando os modelos são implantados em ambientes de terceiros com salvaguardas potencialmente diferentes.
Componentes-chave para o Padrão de Segurança ASL-3
Para os modelos que acionam o Padrão de Segurança ASL-3, a avaliação avalia a força das proteções contra o roubo de peso do modelo por vários agentes de ameaças:
- Modelagem de ameaças: Adesão às práticas recomendadas de governança de risco usando estruturas como MITRE ATT&CK para mapear de forma abrangente ameaças, ativos e vetores de ataque.
- Estruturas de segurança: Alinhamento e extensão de estruturas de segurança padrão da indústria. Isso é usado para abordar os riscos identificados e implementar os controles relevantes. Os componentes da estrutura incluem:
- Perímetros fortes e controles de acesso em torno de ativos sensíveis.
- Segurança do ciclo de vida em todos os sistemas e cadeia de abastecimento de software.
- Identificação proativa de ameaças e mitigação por meio de monitoramento e testes de vulnerabilidade.
- Investimento suficiente em recursos de segurança.
- Alinhamento com as orientações existentes sobre como proteger os pesos do modelo, como Proteger os Pesos do Modelo de IA, Prevenir o Roubo e o Uso Indevido de Modelos de Fronteira e estruturas de padrões como SSDF, SOC 2, NIST 800-53.
- Auditorias: Auditoria e avaliação independentes do design e implementação do programa de segurança. Os planos de auditoria também exigem o compartilhamento periódico de descobertas e esforços de remediação com a gestão, bem como o red-teaming especializado.
- Ambientes de terceiros: Garantir que todos os modelos relevantes atendam aos critérios de segurança, mesmo quando implantados em ambientes de terceiros que podem ter um conjunto diferente de salvaguardas.
Após essas avaliações, um Relatório de Salvaguardas documentando a implementação das medidas necessárias, sua afirmação e recomendações sobre decisões de implantação é compilado e revisado pelo CEO e pelo Diretor de Escalonamento Responsável (RSO). O feedback de especialistas internos e externos também é solicitado. Se as salvaguardas do ASL-3 forem consideradas suficientes, a implantação e o treinamento acima dos Limiares de Capacidade poderão prosseguir após uma avaliação de capacidade de acompanhamento.
Qual é o Propósito Primário da Avaliação de Capacidade de Acompanhamento
O propósito primário da Avaliação de Capacidade de Acompanhamento, de acordo com a Política de Escalabilidade Responsável (RSP) da Anthropic, é confirmar que salvaguardas adicionais além de ASL-3 não são necessárias após as capacidades de um modelo terem sido atualizadas para cumprir as Salvaguardas Obrigatórias ASL-3.
Aqui está a análise para profissionais de tecnologia jurídica, oficiais de conformidade e analistas de política:
- Após a atualização de um modelo de IA para atender aos padrões ASL-3, que ocorre quando o modelo ultrapassa os limites de capacidade existentes, uma avaliação de capacidade de acompanhamento é iniciada.
- Essa avaliação é conduzida em paralelo com a implementação das Salvaguardas Obrigatórias ASL-3.
- O objetivo é determinar se as capacidades do modelo estão suficientemente abaixo dos Limiares de Capacidade subsequentes (aqueles que exigiriam ASL-4) de forma a garantir que a proteção de nível ASL-3 seja realmente adequada.
Como as Medidas de Governança e Transparência Declaradas Visam Promover a Implementação Eficaz e a Compreensão Pública da Política de Escalonamento Responsável
A Política de Escalonamento Responsável (PER) da Anthropic descreve tanto a governança interna quanto as medidas de transparência externa, projetadas para garantir a implementação eficaz da política e para fomentar a compreensão pública de sua abordagem de gestão de riscos.
Medidas de Governança Interna
Para garantir que a PER seja implementada de forma eficaz em toda a empresa, a Anthropic se compromete com várias medidas de governança interna:
- Diretor de Escalonamento Responsável: Manutenção da posição de Diretor de Escalonamento Responsável (DER), encarregado de supervisionar o design e a implementação da PER. O DER propõe atualizações de políticas, aprova decisões de treinamento/implementação de modelos, revisa contratos importantes para consistência, supervisiona a implementação e alocação de recursos, aborda relatórios de não conformidade, notifica o conselho sobre risco material e interpreta/aplica a política.
- Preparação para Incidentes: Desenvolvimento de procedimentos de segurança internos para cenários de incidentes, como pausar o treinamento, responder a incidentes de segurança envolvendo pesos de modelos e abordar jailbreaks severos. Isso inclui a realização de exercícios para garantir a preparação.
- Transparência Interna: Compartilhamento de resumos de Relatórios de Capacidade e Relatórios de Salvaguardas com a equipe da Anthropic, redigindo informações confidenciais. Uma versão minimamente redigida é compartilhada com um subconjunto de funcionários para considerações técnicas de segurança.
- Revisão Interna: Solicitação de feedback de equipes internas sobre Relatórios de Capacidades e Salvaguardas para refinar a metodologia e identificar fraquezas.
- Gestão de Não Conformidade: Estabelecimento de um processo para relatório anônimo de potencial não conformidade, protegendo os denunciantes de retaliação e escalando os relatórios para o Conselho de Administração. A não conformidade é rastreada, investigada e abordada com ação corretiva.
- Acordos com Funcionários: Evitar obrigações contratuais de não depreciação que possam impedir que os funcionários levantem preocupações com a segurança. Quaisquer tais acordos não impedirão de levantar preocupações com a segurança ou divulgar a existência da cláusula.
- Mudanças na Política: As mudanças na PER são propostas pelo CEO e pelo DER e aprovadas pelo Conselho de Administração. A versão pública da PER é atualizada antes que quaisquer mudanças entrem em vigor, com um registro de alterações registrando as diferenças.
Transparência e Feedback Externo
Para avançar o diálogo público sobre a regulamentação dos riscos da IA e para permitir o exame das ações da Anthropic, a empresa se compromete com as seguintes medidas de transparência:
- Divulgações Públicas: Divulgação de informações-chave relacionadas à avaliação e implementação de modelos, incluindo resumos de relatórios de Capacidade e Salvaguardas, planos para avaliações futuras e informações sobre relatórios internos de não conformidade. Detalhes confidenciais não são divulgados.
- Feedback de Especialistas: Solicitação de feedback de especialistas externos durante avaliações de capacidade e salvaguardas.
- Notificação ao Governo: Notificação ao Governo dos EUA se um modelo exige proteções mais fortes do que o Padrão ASL-2.
- Revisão de Conformidade Processual: Encomendar revisões anuais de terceiros para avaliar a adesão aos compromissos processuais da PER.
Através dessas medidas, a Anthropic procura encontrar um equilíbrio entre controles internos e responsabilidade externa, fomentando tanto a gestão de risco eficaz quanto o discurso público informado sobre a segurança da IA de fronteira.