20/05/2026

Human-in-the-Loop vs Human-on-the-Loop: guía de supervisión de la IA

Lo esencial

Human-in-the-loop (HITL) suspende la ejecución del sistema de IA hasta que una persona valida el siguiente paso. Human-on-the-loop (HOTL) permite que la IA actúe y otorga a un supervisor la capacidad de observar, intervenir e interrumpir. Human-out-of-the-loop (HOOTL) elimina toda presencia humana del camino de ejecución.
Los tres rótulos no provienen del aprendizaje automático. Tienen origen en un informe de Human Rights Watch de 2012 sobre sistemas de armas autónomas y fueron codificados poco después por la directiva 3000.09 del Departamento de Defensa de los Estados Unidos.
El Reglamento europeo de IA no impone ninguno de los tres. El artículo 14, apartado 3, exige que las medidas de supervisión sean proporcionadas a los riesgos, al grado de autonomía y al contexto de uso del sistema. Es un marco, no un mandato.
La elección sólida descansa en siete ejes: presupuesto de latencia, reversibilidad de la decisión, criticidad, techo de autonomía, plan de repliegue, granularidad de auditoría y nivel de riesgo regulatorio. Conviene escoger la columna más a la derecha (la más autónoma) que satisfaga las siete filas, nunca la que minimice el esfuerzo de ingeniería.
Una persona junto a una pantalla no constituye supervisión. Sin potestad de invalidación, sin formación y sin tasa de override medida, lo que existe es lo que la doctrina llama hoy un cuerpo caliente en la loop, un gesto de cumplimiento que no resiste una auditoría seria.

De dónde vienen los términos (y por qué la mayoría de artículos se equivocan)

La tricotomía in/on/out-of-the-loop no es una invención del machine learning. Fue cristalizada por Bonnie Docherty en un informe de Human Rights Watch publicado en 2012 sobre sistemas de armas autónomas y adoptada poco después por la Directiva DoD 3000.09 (publicada en 2012 y revisada en 2023), que define los tres modos operativos y exige a los mandos conservar un nivel adecuado de juicio humano sobre el uso de la fuerza.

El vocabulario migró al aprendizaje automático civil entre 2018 y 2020, cuando las plataformas de MLOps necesitaron una abreviatura para describir colas de anotación y colas de excepción. Los blogs de proveedores lo recogieron. Cuando la IA agentiva se convirtió en el tema dominante en 2025, los términos estaban en todas partes y rara vez referenciados a su origen.

Esta filiación importa por dos razones. Primero, porque la taxonomía original se construyó alrededor de decisiones de cadena de fuego, donde cada error cuesta vidas humanas: trasladar el vocabulario a una cola de moderación sin reconocer esa procedencia es vaciar las palabras. Segundo, porque el legislador estadounidense ya ha dado un paso más: la Ley de Autorización de Defensa Nacional para el ejercicio 2025 sustituye human in the loop por positive human actions para el mando nuclear, precisamente porque la pertenencia al loop se invocaba sin que mediara una acción humana sustantiva.

Conserve usted los rótulos: son útiles. Pérolos como elecciones de diseño, no como eslogan.

Tres definiciones, una al lado de la otra

Human-in-the-loop (HITL)

Un sistema HITL se detiene en uno o varios puntos de decisión y no avanza sin autorización humana explícita. La IA carga con el trabajo cognitivo pesado (clasificación, extracción, puntuación) y la persona ejerce la función de portero.

Ejemplos canónicos:

El sistema de combate Aegis de la Armada de los Estados Unidos en modo Auto SM: el sistema prepara la cadena de enganche, el disparo exige una acción humana positiva.
El itinerario de concesión de crédito: el modelo propone, el banquero autoriza. El artículo 22 del RGPD impone, en la práctica, este esquema para toda decisión enteramente automatizada con efectos jurídicos sobre una persona.
Un radiólogo que confirma una lesión sospechada por la IA antes de su inscripción en la historia clínica.

Fortaleza: trazabilidad e imputabilidad firmes. Debilidad: el rendimiento se derrumba cuando un humano debe aprobar cada llamada. El HITL deja de ser significativo cuando la cola de validación excede la capacidad cognitiva del revisor (véase la sección sobre el sello automático).

Human-on-the-loop (HOTL)

Un sistema HOTL se ejecuta de manera autónoma y expone su trayectoria a un supervisor que puede intervenir, anular o interrumpir. La persona se sitúa en el camino de alerta, no en el camino crítico.

Ejemplos canónicos:

Moderación de contenido a escala en una plataforma social: los clasificadores deciden sobre millones de publicaciones por hora, los moderadores procesan los escalados y auditan una muestra.
Detección de fraude en redes de tarjetas: las transacciones se deciden en decenas de milisegundos, los analistas trabajan la cola de excepción y ajustan el modelo.
Telemonitorización: el algoritmo señala anomalías en tiempo real, el equipo clínico confirma o desclasifica.

Fortaleza: escala. Debilidad: intervención tardía. En el tiempo que un humano tarda en percibir una desviación, el sistema puede haber consolidado miles de decisiones. El HOTL vive de la instrumentación: registros, alertas, objetivo de latencia de override, dimensionamiento de la cola de revisión.

Human-out-of-the-loop (HOOTL) y Human-in-Command (HIC)

HOOTL significa que, en tiempo de ejecución, ninguna persona participa. El diseñador fijó los parámetros, el sistema gira. Es el único modo de autonomía plena y resulta sostenible solo para decisiones de bajo impacto y muy alta frecuencia: orden de recomendaciones en una sesión, market-making submilisegundo una vez codificadas las barreras de seguridad.

HIC es lo opuesto: la persona sigue siendo el principal y la IA prolonga su gesto. El piloto en piloto automático, el cirujano en consola robótica. La diferencia con el HITL radica en la propiedad de la decisión. En HITL la IA propone y la persona valida. En HIC la persona decide y la IA ejecuta con precisión.

La taxonomía no es exhaustiva; la literatura académica propone capas intermedias (Human-in-the-Process, Human-Augmented Model), pero para fines de gobernanza el esquema de cuatro niveles basta.

La matriz de decisión de siete ejes

La mayoría de los glosarios se detiene en las definiciones. Los equipos de despliegue necesitan un selector. La matriz siguiente evalúa un sistema a lo largo de siete ejes, cada uno asociado a una restricción de gobernanza concreta. Lea cada fila, puntué su sistema y escoja la columna más a la derecha (la más autónoma) que respete toda la fila.

Eje	HITL adecuado si…	HOTL adecuado si…	HOOTL adecuado si…
Presupuesto de latencia	La decisión admite segundos o minutos (crédito, diagnóstico clínico).	La decisión debe caer en milisegundos pero un override tardío conserva valor (fraude, moderación).	La decisión se toma en microsegundos y el override es impracticable (puja publicitaria, enrutamiento).
Reversibilidad	Difícilmente o no reversible (sentencia, gesto quirúrgico, disparo).	Reversible con esfuerzo (anulación de transacción, restauración de publicación).	Trivialmente reversible o de bajo impacto (caché, orden).
Criticidad (techo de daño)	El peor caso afecta seguridad, derechos fundamentales o un perjuicio financiero relevante.	El peor caso es una pérdida financiera acotada o una fricción subsanable.	El peor caso es desdeñable (UX).
Techo de autonomía	El espacio de acción está estrictamente delimitado y preautorizado.	El espacio de acción es amplio, con interruptor y barandillas activas en tiempo de ejecución.	El espacio de acción es completo en su dominio; solo la política de diseño lo limita.
Plan de repliegue	Un humano formado está de turno y puede tratar la decisión sin la IA.	Existe un modo degradado (respuesta en caché, política por defecto).	No se requiere repliegue humano; el mínimo determinista basta.
Granularidad de auditoría	Cada decisión debe asociarse a un aprobador humano nominado.	Cada decisión debe asociarse a una versión de modelo; el override es la traza de auditoría.	Trazas agregadas, estadística periódica.
Nivel de riesgo regulatorio	Alto riesgo según el anexo III del Reglamento de IA, MDR clase IIa+, artículo 22 del RGPD para decisiones plenamente automatizadas.	Riesgo limitado según el Reglamento de IA, códigos sectoriales, política interna.	Riesgo mínimo según el Reglamento de IA, gobernanza informal.

La regla que transforma la tabla en una herramienta de diseño: escoja la columna más a la derecha que su sistema pueda honrar en toda la fila, nunca la de menor esfuerzo de ingeniería. Un único eje que reclame HITL arrastra todo el camino decisional hacia la izquierda; el sistema conserva la posibilidad de HOTL en otros tramos del flujo.

Lectura del artículo 14 del Reglamento de IA

El artículo 14 del Reglamento de IA es el anclaje jurídico de todo el debate. El apartado 1 fija el umbral: los sistemas de IA de alto riesgo se diseñarán y desarrollarán de tal modo, en particular con interfaces hombre-máquina adecuadas, que puedan ser supervisados de manera efectiva por personas físicas durante el período en que estén en uso. El apartado 3 contextualiza la elección: las medidas de supervisión han de ser proporcionadas a los riesgos, al grado de autonomía y al contexto de uso del sistema de IA de alto riesgo.

Lo que el artículo 14 no dice es igualmente revelador. No impone que una persona apruebe cada decisión. No nombra HITL ni HOTL. Exige que el sistema permita a una persona comprender, vigilar, intervenir e interrumpir, y que esas capacidades sean proporcionadas. Es un pliego de diseño, no un modo de ejecución.

Lectura operativa:

Sistemas de alto riesgo (anexo III): HITL o HOTL reforzado con autoridad de override nominada. El artículo 14, apartado 4, letra d), pide expresamente la capacidad de decidir ... no utilizar el sistema de IA de alto riesgo o ignorar, anular o invertir la salida. Si la arquitectura HOTL no puede demostrar que el supervisor actúa a tiempo, el artículo 14 no se cumple.
Sistemas de riesgo limitado: obligaciones de transparencia del artículo 50 y, como mínimo, HOTL. El supervisor no aprueba cada acción, pero ha de poder observar y detener.
Modelos de IA de propósito general (GPAI): la supervisión se desplaza al ciclo de vida del modelo (artículos 51 a 55: documentación técnica, política de derechos de autor, resumen de datos de entrenamiento y, para el riesgo sistémico, evaluación adversarial y notificación de incidentes). HITL y HOTL retornan al protagonismo en la capa del deployer cuando el GPAI se integra en un producto descendente de alto riesgo.
Sistemas prohibidos (artículo 5): la cuestión del modo de supervisión carece de objeto.

La AEPD y la nueva AESIA están perfilando progresivamente su lectura sectorial de estas obligaciones. El artículo de Melanie Fink en SSRN merece atención: sostiene que el artículo 14 deja al deployer la mayor parte de la operacionalización, por lo que las elecciones de diseño se convierten en la postura de cumplimiento de facto.

Encaje con ISO/IEC 42001 y NIST AI RMF

Donde el Reglamento de IA aporta el anclaje legal, ISO/IEC 42001 constituye la columna vertebral del sistema de gestión y NIST AI RMF suministra el vocabulario de ingeniería. Las tres se encadenan:

ISO/IEC 42001 §6.1.4 (planificación operativa) y anexo A.6.2.6 (supervisión humana) exigen a la organización definir, implementar y mantener controles de supervisión humana dentro de su sistema de gestión de IA. La norma no prescribe HITL ni HOTL: pide evidencia de que la elección ha sido deliberada y probada.
NIST AI RMF GOVERN-1.4 (Existen procesos para determinar el nivel necesario de actividades de gestión del riesgo según la tolerancia de la organización) y MANAGE-2.4 (mecanismos para reemplazar, desconectar o desactivar un sistema de IA con desempeño o resultados incoherentes con el uso previsto) son las contrapartes arquitectónica y operativa del artículo 14.
El crosswalk oficial AIRC traza las dos normas línea por línea.

La postura práctica: inscriba el modo de supervisión en la declaración de aplicabilidad ISO 42001, justifíquelo con la matriz de siete ejes, instruméntelo según MANAGE-2.4 y obtendrá una respuesta coherente para una auditoría del artículo 14, una certificación ISO 42001 y un cuestionario de cliente alineado con NIST.

La trampa del sello automático

Un HITL excesivo es peor que uno moderado. Cuando un revisor procesa miles de solicitudes apruebe por turno, la atención se hunde y la validación se vuelve reflejo. Verfassungsblog habla ya de un cuerpo caliente en la loop: supervisión nominal que cumple una casilla y no constituye control real sobre el modelo. Las autoridades de control lo detectan.

Cuatro medidas de diseño se consideran ya línea base:

Escalado condicionado por la confianza. El revisor sólo ve los casos que el propio modelo marca como inciertos o las muestras de QA. La vía de alta confianza se audita por lotes.
Tasa de override como indicador clave. Se mide la proporción de decisiones de IA revertidas por los revisores en el tiempo. Una tasa estancada en cero indica sello automático. Una tasa por encima del veinte por ciento indica un modelo a rehacer. La banda aceptable depende del uso; el punto es que la medida exista.
Formación y rotación de revisores. El artículo 14, apartado 4, letra b), nombra expresamente la formación. Los revisores deben estar formados en el dominio, rotar para combatir la fatiga y probarse con errores sembrados.
Latencia de override. Se mide el tiempo entre la anomalía y la acción humana. Si la mediana excede el tiempo que el sistema de IA tarda en consolidar una salida equivocada, su HOTL es decorativo.

Estas cuatro medidas separan tenemos un humano en la loop de tenemos una supervisión humana efectiva conforme al artículo 14. Los auditores reclaman cada vez con más frecuencia la segunda formulación.

Supervisión por sectores

El modo de supervisión que sobrevive a una auditoría es sectorial porque los niveles de riesgo lo son.

Salud: HITL por defecto para toda salida diagnóstica que entre en la historia clínica. El artículo 14 se combina con el Reglamento de Productos Sanitarios y, en Estados Unidos, con la doctrina FDA Software-as-a-Medical-Device. HOTL resulta aceptable para triaje y monitorización cuando la tasa de falsos negativos ha sido acotada por estudio clínico.
Servicios financieros: HITL para decisiones de crédito y suscripción sobre personas físicas (artículo 22 RGPD), HOTL para vigilancia de transacciones y detección de fraude. Banco de España y CNMV están precisando sus expectativas sobre modelos internos.
Sector público y justicia: caso especial. El estudio Oxford IJLIT 2026 sobre jueces en la loop sostiene que, en los sistemas de apoyo a la decisión jurisdiccional de alto riesgo, la supervisión debe ejercerla el propio decisor, no un tercero, so pena de no constituir control humano significativo.
Movilidad autónoma: HOTL en operaciones ordinarias, con escalado HITL gestionado por un centro de operaciones remoto. HOOTL queda reservado a los bucles de control sub-segundo, en los que la latencia humana es físicamente inviable.
Contenido y búsqueda: HOTL con muestreo condicionado a la confianza, hoy norma. HITL vuelve a ser obligatorio cuando la retirada afecta a discurso político u otras categorías cargadas de derechos fundamentales.

Lectura transversal: cuanto más alto el techo de daño, más empuja la matriz hacia la izquierda; cuanto más estrecho el presupuesto de latencia, más la empuja a la derecha. Los sistemas reales viven en la intersección.

Cómo implementar la supervisión

Una rutina en cinco pasos alinea la matriz con la documentación ISO 42001 y con la prueba de auditoría exigida por el artículo 14:

Clasifique el sistema según los niveles de riesgo del Reglamento de IA, el artículo 22 del RGPD, los regímenes sectoriales y las obligaciones contractuales. Esto fija la fila Nivel de riesgo regulatorio.
Puntúe el sistema en los otros seis ejes. Escriba las puntuaciones. El modo se desprende de los números.
Documente la elección en la declaración de aplicabilidad ISO 42001 (anexo A.6.2.6), con referencia a la matriz y un rationale firmado.
Instrumente la ejecución. Camino de override, objetivo de latencia de override, traza de auditoría por decisión (o por versión de modelo, según la fila), registros de formación, tablero de la tasa de override.
Revise trimestralmente. Tasa de override, tasa de falso sello (muestra de aprobados), señales de fatiga de los revisores, evoluciones regulatorias o técnicas que muevan una fila.

El ciclo se cierra cuando el tablero confirma la elección inicial o revela una fila desplazada; entonces se vuelve a puntuar y se actualiza la SoA. Los equipos que gobiernan la IA a escala de portafolio adoptan pronto una herramienta dedicada. AI Sigil está construida en torno a este flujo exacto.

Preguntas frecuentes

¿Hay una diferencia real entre human-in-the-loop y human-on-the-loop? Sí. HITL detiene la IA y espera una aprobación humana. HOTL deja que la IA actúe y otorga a una persona la capacidad de observar y anular. La diferencia no es estética: cambia el presupuesto de latencia, la traza de auditoría, el modelo de personal y la exposición regulatoria. Tratarlos como intercambiables genera deuda de cumplimiento a plazo.

¿Cómo se explica human-on-the-loop en términos sencillos? La IA hace el trabajo, una persona lo vigila, puede detenerlo y revisa una muestra de las salidas. Es la pieza adecuada cuando no se puede aprobar cada decisión ni dejar correr el sistema sin mirada humana.

¿Quién acuñó el término human-in-the-loop? La expresión existía ya en la literatura de modelización y simulación, pero la tricotomía moderna se popularizó con Bonnie Docherty en el informe Losing Humanity de Human Rights Watch en 2012. El Departamento de Defensa estadounidense la adoptó poco después en la directiva 3000.09.

¿Dónde cita el Reglamento de IA al human-in-the-loop? No lo cita por nombre. El artículo 14 exige supervisión efectiva por personas físicas, enumera cuatro capacidades (comprender, vigilar, intervenir, interrumpir) y demanda proporcionalidad respecto a riesgos, autonomía y contexto. HITL y HOTL son las herramientas con que el deployer cumple el pliego.

¿Basta el human-in-the-loop para un sistema de alto riesgo? Sólo si es genuino. El artículo 14, apartado 4, exige que el supervisor pueda comprender, vigilar, intervenir, interrumpir y anular. Un aprobador nominal que sella no supera el umbral. Tasa de override, latencia de override y formación son las pruebas que pide el auditor.

¿Qué es human-in-command y en qué se distingue? En HIC, la persona sigue siendo el decisor principal y la IA prolonga su gesto: piloto en automático, cirujano en consola robótica. La diferencia con HITL radica en la propiedad de la decisión: en HITL la IA propone y la persona valida; en HIC la persona decide y la IA ejecuta.

¿Se pueden combinar modos en un mismo sistema? Sí, es la norma en producción. Mantenga HOTL en la canalización de masa, dirija los casos de baja confianza a una cola HITL, deje HOOTL para los bucles de retroalimentación que no toleran latencia. La matriz aplica por camino decisional, no por sistema.

Conclusión

Los rótulos de la loop no son un argumento comercial. Condensan una década de debate sobre la autonomía admisible de una máquina ante decisiones de vida o muerte. La gobernanza civil heredó el vocabulario junto con la obligación de emplearlo con precisión.

La postura sólida es estructural. Puntúe cada camino decisional en los siete ejes. Escoja el modo más autónomo compatible. Escriba el modo y el rationale en la SoA ISO 42001. Instrumente el camino de override con el rigor que el artículo 14, apartado 4, letra d) y MANAGE-2.4 imponen. Siga la tasa de override y la de falso sello. Vuelva a puntuar cuando el sistema, los datos o la regulación cambien.

La alternativa, elegir un rótulo porque un blog de proveedor lo usó, es la vía corta hacia la casilla marcada y luego el hallazgo de auditoría. La matriz es el modo de asegurarse de que la etiqueta puesta corresponde a lo que el sistema hace en realidad.

Para profundizar en el artículo 14, el análisis dedicado de AI Sigil es el complemento de este artículo. Para la cartografía de los controles ISO 42001, el pilar dedicado a la norma es el siguiente paso.

Elena Vargas

Sistemas de IA: qué son, cómo se clasifican y se gobiernan

Qué son los sistemas de IA según el Reglamento Europeo de IA: definición del artículo 3, siete características, tipos y obligaciones de gobernanza.

Elena Vargas
julio 21, 2026

Seguridad de la IA: gobernar y proteger los sistemas de IA

La seguridad de la IA ya es una obligación de cumplimiento. Vincule las amenazas a los controles y al Reglamento de IA, la ISO 42001 y el NIST AI RMF, con pruebas.

Elena Vargas
julio 20, 2026

Riesgo IA: la guía completa de tipos, marcos y controles

Qué es el riesgo IA, sus categorías principales y cómo gobernarlo con el Reglamento de IA, el NIST AI RMF y la ISO 42001 mediante controles auditables.

Elena Vargas
julio 19, 2026

Gestión de riesgos de IA: marcos, ciclo de vida y controles

La gestión de riesgos de IA explicada: los tipos de riesgo, el ciclo identificar-evaluar-mitigar-supervisar y cómo encajan NIST AI RMF, ISO 42001 y el AI Act.

Elena Vargas
julio 18, 2026

Política de IA: qué es y cómo hacerla conforme y auditable

Una política de IA solo cumple si se ata a un inventario, controles y evidencia y se mapea al EU AI Act, ISO 42001 y el NIST AI RMF. Guía práctica y auditable.

Elena Vargas
julio 17, 2026

Ley de inteligencia artificial en 2026: las reglas globales y cómo cumplirlas

Guía clara sobre la ley de inteligencia artificial en 2026: reglamento europeo, mosaico de estados de EE. UU. y reglas globales, con un modelo operativo de cumplimiento.

Elena Vargas
julio 16, 2026

AI System Registry

Framework Activation

Controls & Assessments

AI Risk Management

Advisory & Consulting

Implementation Support

Training

The EU AI Act

Industry Insights

Sections