Cómo Aumentar la Confianza Construyendo IA Responsable con Guardrails
Los guardrails son una parte esencial de la arquitectura de sistemas de IA, especialmente para los agentes de IA. Cuanta más autonomía se le da a la IA para realizar tareas, más importantes son los guardrails.
Para explorar este tema, responderemos a dos preguntas clave:
1. ¿Qué tipos de guardrails existen?
1.1 Nivel de Entrada — Preprocesamiento de la Entrada Humana
– Profanidades y discursos de odio, o incluso elecciones de palabras más generales que se desean evitar.
– Detección de intentos de brechas de seguridad como el prompt injection. Se pueden utilizar modelos personalizados para hacer cumplir requisitos de seguridad específicos, y cualquier intento de violarlos será marcado e ignorado.
– Clasificación de Intención y Enrutamiento a fuentes apropiadas. En casos donde el modelo de IA detecta alta ambigüedad o baja confianza, se pueden añadir declaraciones lógicas condicionales para que la IA retroceda, como un formulario de aclaración.
1.2 Nivel de Salida — Postprocesamiento de la Salida de IA
– Moderación de contenido. Dependiendo del caso de uso, puede ser necesario moderar el contenido, filtrando, por ejemplo, información que ofrezca competidores como fuentes.
– Filtrado de Información de Identificación Personal (PII) por consideraciones éticas y de cumplimiento legal.
– Uso de herramientas/classificadores fuera de alcance para determinar la relevancia de la respuesta.
– Voz de marca y estándares de comunicación, utilizando el tono y los valores de la empresa en su mensaje.
– Formato de Salida. Se puede imponer un formato específico que la IA debe seguir en la salida.
1.3 Restricción de Acceso a Herramientas
– Categorización de herramientas por categoría de riesgo.
– Restricción de acceso basado en Control de Acceso Basado en Roles (RBAC).
– Implementación de aprobación humana para acciones de alto impacto, asegurando transparencia en el proceso.
1.4 Aprobación Humana en el Circuito (HITL)
Este concepto promueve una relación simbiótica entre la IA y el humano, asegurando que la IA no opere sin control y minimizando situaciones de falsos positivos y negativos.
2. ¿Cómo deberíamos comenzar a construir guardrails en nuestras aplicaciones de IA?
Se recomienda un enfoque paso a paso, lo que ayuda a evitar la parálisis por análisis.
2.1 Lluvia de Ideas sobre Riesgos Potenciales
– Comenzar a construir guardrails para estos riesgos, como filtrado de PII y moderación de contenido.
– Definir qué herramientas requieren RBAC y cuáles necesitan HITL.
– No es necesario mapear todos los riesgos exhaustivamente; comienza con los más importantes.
2.2 Registro de Todo
– Registrar todo para saber qué salió mal y cómo funcionaron los guardrails.
– La recopilación de datos sistemática es clave para evaluar la aplicación de IA.
2.3 Evaluar mientras se Monitorea la Aplicación
– Evaluar el modelo de IA utilizando los registros para entender la frecuencia de intervenciones humanas y los escenarios de falsos positivos o negativos.
2.4 Iterar y Aumentar los Guardrails
– Aumentar los guardrails con más capas de validación para crear un sistema infalible.
– Los guardrails deben evolucionar constantemente ante nuevos casos extremos o fallos.
2.5 Preparar para la Escalabilidad
– Diseñar guardrails como componentes modulares para facilitar su actualización y mantenimiento.
– Iniciar primero en lugar de obsesionarse con la escalabilidad crea valor inmediato y confianza en el sistema de IA.
Resumen
En resumen, considera construir guardrails; no te enfoques solo en los casos de uso ‘geniales’. Para una adopción amplia, necesitas confianza de los usuarios finales. Para construir confianza, necesitas guardrails. A medida que la IA se diseñe y construya de manera responsable, el valor y la adopción seguirán.
En el campo de la IA, es tanto un maratón como un sprint.