Como Aumentar a Confiança Construindo IA Responsável com Guardrails
Os guardrails são uma parte essencial da arquitetura do seu sistema de IA. Quanto mais autonomia se dá à IA para realizar tarefas, mais guardrails devem ser implementados.
Tipos de Guardrails
1. Nível de Entrada — Pré-processamento da Entrada Humana
– Palavras ofensivas e discurso de ódio, ou até mesmo escolhas de palavras mais gerais que você deseja evitar.
– Detectar tentativas de violação de segurança, como a injeção de prompt. Para isso, você pode utilizar modelos personalizados para impor seus requisitos de segurança específicos, e quaisquer tentativas de violação serão sinalizadas e ignoradas.
– Classificação de Intenção e Roteamento para fontes apropriadas. Em casos onde o modelo de IA detecta alta ambiguidade ou baixa confiança, você pode adicionar declarações lógicas condicionais para que a IA recorra a um fallback. Isso pode ser na forma de um formulário de esclarecimento, por exemplo, “Você pode esclarecer o que quer dizer por XXX?”.
2. Nível de Saída — Pós-processamento da Saída da IA
– Moderação de conteúdo. Dependendo do seu caso de uso, você pode querer moderar o conteúdo de acordo, por exemplo, filtrando conteúdo que forneça concorrentes como fontes.
– Filtragem de Informações Pessoais Identificáveis (PII) por considerações éticas e conformidade legal na saída da IA.
– Uso de ferramentas/classificadores fora do escopo. Estes determinam se a resposta é relevante. A relevância deve ser determinada por você e sua tolerância ao risco.
– Voz da marca e padrões de comunicação, utilizando o tom e os valores da sua empresa na sua comunicação.
– Formato de saída. Se houver um formato que você deseja que sua IA adote, você pode impor isso na saída.
3. Restrição de Acesso a Ferramentas
– Categorizar suas ferramentas por categoria de risco. Por exemplo, ferramentas que podem escrever no acesso ao banco de dados devem ser restritas.
– Restringir o acesso às ferramentas com base no Controle de Acesso Baseado em Funções (RBAC), que você pode considerar em conjunto com a categoria de risco das ferramentas.
– Implementar aprovação humana para ações de alto impacto, garantindo que tudo seja esperado e haja transparência no processo.
4. Aprovação Humana (HITL)
A promoção de uma relação simbiótica entre a IA e o humano é essencial. Isso garante que a IA não funcione sem controle e assegura que o sistema seja robusto o suficiente para minimizar falsos positivos e falsos negativos.
Alguns exemplos incluem:
– Alcançar o limite de tentativas falhas para entender a intenção do usuário em sua pergunta.
– Engajar em ações irreversíveis ou de alto risco, como fazer um pedido de compra de um produto.
– Baixa confiança nos passos ou saídas intermediárias da IA, que você pode determinar com ferramentas e o caso de uso específico para essa IA.
Como Começar a Construir Guardrails em Nossas Aplicações de IA?
Um método passo a passo é recomendado, pois ajuda a evitar a paralisia de decisão. Não há sentido em fixar-se no melhor roteiro. Decida por um que se torne progressivamente mais complexo e apenas comece.
1. Brainstorming sobre Todos os Riscos Potenciais Relacionados à sua Aplicação de IA
– Comece a construir guardrails para esses riscos, como filtros de PII e moderação de conteúdo para discurso de ódio.
– Decida quais ferramentas requerem RBAC, quais guardrails requerem HITL e o que exatamente você irá impor nas camadas de entrada e saída.
2. Registrar Tudo Desde a Entrada Até os Passos Intermediários e a Saída
– Registrar tudo para saber o que deu errado, onde deu errado e como seus guardrails funcionaram.
– Um erro comum é não registrar. Sem a coleta de dados, como você pode avaliar sua aplicação de IA?
3. Avaliar Enquanto Monitora sua Aplicação
– Com os logs de dados, avalie o modelo de IA que você está usando. Observe quais entradas foram sinalizadas e a frequência de intervenção humana.
4. Iterar e Aumentar Seus Guardrails
– Você pode aumentar seus guardrails com mais camadas de validação, de modo que, se um mecanismo falhar, o outro o captará.
5. Preparar para Escalabilidade
– Projete seus guardrails como componentes modulares para que seja mais fácil atualizá-los e mantê-los.
Resumo
Em suma, considere construir guardrails — não apenas se concentre nos casos de uso “legais” de IA. Para uma ampla adoção, você precisa da confiança dos usuários finais. Para construir confiança, você precisa de guardrails. À medida que a IA é projetada e construída de forma responsável, o valor e a adoção seguirão.