Human-in-the-Loop vs Human-on-the-Loop : guide de la supervision IA
L’essentiel
- Human-in-the-loop (HITL) suspend l’exécution de l’IA tant qu’une personne n’a pas validé la décision suivante. Human-on-the-loop (HOTL) laisse l’IA agir et confie au superviseur le pouvoir de surveiller, d’intervenir et d’interrompre. Human-out-of-the-loop (HOOTL) retire toute présence humaine de la chaîne d’exécution.
- Ces trois libellés ne viennent pas du machine learning : ils sont issus d’un rapport de Human Rights Watch publié en 2012 sur les armes autonomes, puis codifiés par la directive 3000.09 du département américain de la Défense.
- Le Règlement européen sur l’IA ne tranche pas. L’article 14 §3 exige que les mesures de supervision soient
proportionnées aux risques, au niveau d'autonomie et au contexte d'utilisationdu système. C’est un cadre, pas un mode imposé. - Le bon choix repose sur sept axes : budget de latence, réversibilité de la décision, criticité, plafond d’autonomie, plan de repli, granularité d’audit, niveau de risque réglementaire. Retenez la colonne la plus autonome qui satisfait les sept axes, jamais la moins coûteuse à industrialiser.
- Une personne à côté d’un écran ne constitue pas une supervision. Sans pouvoir d’arbitrage, sans formation, sans taux d’override mesuré, vous avez ce que les juristes appellent désormais un
corps chaud dans la boucle, un dispositif de conformité qui ne résistera pas à un audit sérieux.
D’où viennent les termes (et pourquoi la plupart des articles s’égarent)
La trichotomie in/on/out-of-the-loop n’a pas été inventée pour le machine learning. Elle a été cristallisée par Bonnie Docherty dans un rapport de Human Rights Watch publié en 2012 et consacré aux systèmes d’armes autonomes, puis reprise quelques mois plus tard par la directive DoD 3000.09, publiée en 2012 et révisée en 2023. Cette directive définit trois modes opératoires et exige que les commandants conservent un niveau approprié de jugement humain sur l'emploi de la force.
Le vocabulaire a migré vers le machine learning civil entre 2018 et 2020, lorsque les plateformes MLOps ont eu besoin d’un raccourci pour décrire les files d’annotation et les files d’exception. Les blogs d’éditeurs s’en sont saisis. Le temps que l’IA agentique devienne le sujet dominant en 2025, les libellés étaient partout et presque jamais sourcés.
Cette filiation compte pour deux raisons. D’abord parce que la taxonomie d’origine portait sur des décisions de chaîne de feu, où chaque erreur coûte des vies : emprunter le vocabulaire pour parler de modération de contenu sans citer cette généalogie tient du contresens. Ensuite parce que le législateur américain a déjà changé de registre : le National Defense Authorization Act 2025 remplace human in the loop par positive human actions pour le commandement nucléaire, précisément parce que la mention d’une boucle était dévoyée sans action humaine effective derrière.
Conservez ces libellés, ils restent utiles. Mais traitez-les comme des choix de conception, pas comme des slogans.
Trois définitions, côte à côte
Human-in-the-loop (HITL)
Un système HITL marque l’arrêt à un ou plusieurs points de décision et n’avance pas sans validation humaine explicite. L’IA produit la charge cognitive lourde (classement, extraction, scoring) et l’humain joue le rôle de portier.
Exemples canoniques :
- Le système de combat Aegis de l’US Navy en mode Auto SM : la chaîne d’engagement est préparée par le système, mais la mise à feu exige une
action humaine positive. - Le parcours d’octroi de crédit : le modèle formule une recommandation, le banquier autorise. L’article 22 du RGPD impose, en pratique, ce schéma pour toute décision entièrement automatisée produisant des effets juridiques sur une personne.
- Un radiologue confirmant une lésion suspectée par l’IA avant inscription au dossier patient.
Force : traçabilité et imputabilité. Faiblesse : le débit s’effondre dès qu’une personne doit valider chaque appel. Le HITL cesse d’être porteur de sens dès que la file de validation dépasse la capacité cognitive du réviseur (voir la section sur le tamponnage automatique).
Human-on-the-loop (HOTL)
Un système HOTL s’exécute de façon autonome et expose sa trajectoire à un superviseur qui peut intervenir, arbitrer ou interrompre. L’humain est sur le chemin d’alerte, pas sur le chemin critique.
Exemples canoniques :
- La modération de contenu à grande échelle sur les réseaux sociaux : les classifieurs traitent des millions de publications par heure, les modérateurs traitent les remontées et auditent un échantillon.
- La détection de fraude sur les réseaux de cartes : les transactions sont décidées en quelques dizaines de millisecondes, les analystes traitent la file d’exception et réglent le modèle.
- Le télésuivi de patients : l’algorithme signale les anomalies en temps réel, l’équipe soignante confirme ou déclasse.
Force : passage à l’échelle. Faiblesse : intervention tardive. Le temps que l’humain repère une dérive ou une erreur, le système a pu commettre des milliers de décisions. Le HOTL repose entièrement sur l’instrumentation : journalisation, alertes, cible de latence d’intervention, dimensionnement de la file de revue.
Human-out-of-the-loop (HOOTL) et Human-in-Command (HIC)
HOOTL signifie qu’aucun humain ne participe au temps d’exécution. Le concepteur a fixé les paramètres, le système tourne. Ce mode convient à des décisions à faible enjeu et à très haute fréquence : ordonnancement de recommandations dans une session, market-making à la microseconde une fois les bornes de sécurité encodées.
HIC est l’inverse : l’humain reste le principal et l’IA prolonge sa main. Le pilote en autopilote, le chirurgien sur sa console robotique. La différence avec le HITL tient à la propriété de la décision : en HITL, l’IA propose et l’humain valide ; en HIC, l’humain décide et l’IA exécute avec précision.
La taxonomie n’est pas exhaustive. La littérature académique propose des tiers intermédiaires (Human-in-the-Process, Human-Augmented Model), mais pour les besoins de la gouvernance, le schéma à quatre crans suffit.
La matrice de décision à sept axes
La plupart des glossaires s’arrêtent aux définitions. Les opérationnels ont besoin d’un sélecteur. La matrice ci-dessous évalue un système sur sept axes, chacun lié à une contrainte de gouvernance concrète. Lisez chaque ligne, notez votre système, retenez la colonne la plus à droite (la plus autonome) qui satisfait l’ensemble.
| Axe | HITL pertinent si… | HOTL pertinent si… | HOOTL pertinent si… |
|---|---|---|---|
| Budget de latence | La décision peut attendre quelques secondes ou minutes (crédit, diagnostic clinique). | La décision doit tomber en millisecondes mais une intervention tardive reste utile (fraude, modération). | La décision se prend en microsecondes, l’arbitrage est matériellement impossible (encheres publicitaires, routage). |
| Réversibilité | Difficilement ou non réversible (sentence pénale, geste chirurgical, tir). | Réversible au prix d’un effort (annulation de transaction, rétablissement de publication). | Trivialement réversible ou faible enjeu (ordonnancement, cache). |
| Criticité (plafond de préjudice) | Le pire cas atteint la sécurité, les droits fondamentaux ou un préjudice financier majeur. | Le pire cas est borné à une perte financière ou à une friction utilisateur réparable. | Préjudice négligeable (UX). |
| Plafond d’autonomie | L’espace d’action est strictement balisé et pré-approuvé. | L’espace d’action est large, mais cohabite avec un coupe-circuit et des garde-fous d’exécution. | L’espace d’action est entier dans son domaine, seule la politique de conception le contraint. |
| Plan de repli | Un humain formé est de garde et peut traiter la décision sans l’IA. | Un mode dégradé existe (réponse en cache, politique par défaut). | Aucun repli humain n’est requis ; le plancher déterministe du système suffit. |
| Granularité d’audit | Chaque décision doit être attribuée à un approbateur humain nommé. | Chaque décision doit être rattachée à une version de modèle ; l’override constitue la piste d’audit. | Pièces d’audit agrégées, statistiques périodiques. |
| Niveau de risque réglementaire | Haut risque sous l’annexe III du Règlement IA, marquage CE-DM classe IIa+, article 22 du RGPD pour les décisions entièrement automatisées. | Risque limité sous le Règlement IA, codes sectoriels, politique interne. | Risque minimal sous le Règlement IA, gouvernance informelle. |
La règle qui transforme ce tableau en outil de conception : retenez la colonne la plus à droite que votre système peut honorer sur l’ensemble des lignes, jamais la moins chère à industrialiser. Si un seul axe vous pousse en HITL, la totalité du chemin de décision concerné hérite du HITL ; vous pouvez toujours exploiter le HOTL ailleurs dans le flux.
Lecture de l’article 14 du Règlement IA
L’article 14 est l’ancrage juridique de toute la discussion. Le paragraphe 1 pose le seuil : les systèmes d’IA à haut risque sont conçus et développés de manière à pouvoir être effectivement surveillés par des personnes physiques pendant la période pendant laquelle ils sont utilisés. Le paragraphe 3 contextualise le choix : les mesures de supervision doivent être proportionnées aux risques, au niveau d'autonomie et au contexte d'utilisation.
Retenez ce que l’article 14 ne dit pas. Il n’exige pas qu’un humain valide chaque décision. Il ne nomme ni HITL ni HOTL. Il exige que le système permette à une personne de comprendre, surveiller, intervenir et interrompre, et que ces capacités soient calibrées. C’est un cahier des charges de conception, pas un mode d’exécution.
La traduction opérationnelle :
- Systèmes à haut risque (annexe III) : HITL ou HOTL renforcé, avec une autorité d’override nominale. L’article 14 §4(d) exige explicitement la capacité de
décider de ne pas utiliser le système d'IA à haut risque ou de mettre de côté, d'annuler ou d'inverser la sortie. Si votre architecture HOTL ne permet pas à ce superviseur d’agir à temps, vous ne satisfaites pas l’article 14. - Systèmes à risque limité : obligations de transparence de l’article 50, plus un HOTL au minimum. Le superviseur n’a pas à approuver chaque action ; il doit pouvoir observer et arrêter.
- Modèles d’IA à usage général (GPAI) : la supervision bascule au niveau du cycle de vie du modèle, articles 51 à 55 (documentation technique, politique relative au droit d’auteur, résumé des données d’entraînement et, pour le risque systémique, évaluation adversariale et notification d’incidents). Le HITL et le HOTL retrouvent leur place chez le déployeur, lorsque le GPAI entre dans un produit aval à haut risque.
- Systèmes interdits (article 5) : la question du mode de supervision est sans objet.
La CNIL et l’ACPR poursuivent un effort actif d’interprétation sectorielle de ces obligations. L’article publié par Melanie Fink sur SSRN mérite une lecture attentive : elle démontre que l’article 14 laisse au déployeur la plus grande part de l’opérationnalisation, ce qui transforme les choix de conception en posture de conformité de facto.
Articulation avec ISO/IEC 42001 et le NIST AI RMF
Là où le Règlement IA fournit l’ancrage légal, ISO/IEC 42001 constitue l’épine dorsale du système de management et le NIST AI RMF propose le vocabulaire d’ingénierie. Les trois s’articulent :
- ISO/IEC 42001 §6.1.4 (planification opérationnelle) et annexe A.6.2.6 (supervision humaine) demandent à l’organisation de définir, mettre en œuvre et tenir à jour des contrôles de supervision humaine au sein de son système de management de l’IA. La norme ne prescrit ni HITL ni HOTL ; elle exige une preuve que le choix a été délibéré et testé.
- NIST AI RMF GOVERN-1.4 (
Des procédures permettent de déterminer le niveau requis d'activités de gestion des risques en fonction de la tolérance de l'organisation) et MANAGE-2.4 (mécanismes permettant de remplacer, de désengager ou de désactiver un système d’IA dont les performances ou les sorties divergent de l’usage prévu) sont les pendants architecturaux et opérationnels de l’article 14. - Le tableau de correspondance officiel AIRC cartographie les deux normes ligne par ligne.
La bonne posture opérationnelle : inscrire le mode de supervision dans la déclaration d’applicabilité ISO 42001, justifier par la matrice à sept axes, instrumenter ce que MANAGE-2.4 exige, et vous obtenez une réponse cohérente pour un audit article 14, un audit de certification ISO 42001 et un questionnaire client aligné NIST.
Le piège du tamponnage
Un HITL excessif est pire qu’un HITL bien dosé. Lorsqu’un réviseur traite des milliers de demandes d’approbation par poste, l’attention s’effondre et la validation devient réflexe. La revue allemande Verfassungsblog parle désormais d’un corps chaud dans la boucle : une supervision nominale qui coche une case sans contrôle réel sur le modèle. Les autorités de contrôle le repèrent.
Quatre points de conception sont désormais considérés comme indispensables :
- Escalade conditionnelle à la confiance. Le réviseur ne voit que les cas que le modèle signale comme incertains, ou ceux échantillonnés pour la qualité. La voie haute confiance fait l’objet d’audits par lots.
- Taux d’override comme indicateur clé. Suivez le pourcentage de décisions IA inversées par les réviseurs dans le temps. Un taux fixé à zéro signale du tamponnage. Un taux qui dépasse vingt pour cent signale un modèle à reprendre. La fourchette acceptable dépend de l’usage ; l’enjeu est que la mesure existe.
- Formation et rotation des réviseurs. L’article 14 §4(b) cite expressément la formation. Les réviseurs doivent être formés au domaine, en rotation pour combattre la fatigue, et testés périodiquement à l’aide d’erreurs semées.
- Latence d’override. Mesurez le délai entre l’anomalie et l’action humaine. Si la médiane dépasse le temps qu’il faut à l’IA pour figer une mauvaise sortie, votre HOTL est décoratif.
Ces quatre points séparent nous avons un humain dans la boucle de nous disposons d'une supervision humaine effective au sens de l'article 14. C’est désormais la deuxième formulation que les auditeurs réclament.
La supervision selon les secteurs
Le mode de supervision qui survit à un audit est sectoriel, parce que les niveaux de risque le sont.
- Santé : HITL par défaut pour toute sortie diagnostique qui entre dans le dossier patient. L’article 14 se combine avec le règlement européen sur les dispositifs médicaux et avec la doctrine SaMD. Le HOTL convient au triage et au monitoring dès lors que le taux de faux négatifs est borné par une étude clinique.
- Services financiers : HITL pour les décisions de crédit ou de souscription sur des personnes physiques (article 22 du RGPD), HOTL pour la surveillance des transactions et la détection de fraude. L’ACPR précise progressivement ses attentes pour les modèles internes.
- Secteur public et justice : cas particulier. Les travaux académiques sur les
juges dans la boucle(Oxford IJLIT 2026) soutiennent que, pour les outils d’aide à la décision juridictionnelle, la supervision doit être exercée par le décideur lui-même, pas par un tiers, sous peine de ne plus constituer un contrôle humain significatif. - Mobilité autonome : HOTL en opérations courantes, avec escalade HITL traitée par un centre d’opérations distant. Le HOOTL est réservé aux boucles de commande sous la seconde, où la latence humaine est physiquement infaisable.
- Contenu et recherche : HOTL avec échantillonnage conditionné à la confiance, devenu la norme. Le HITL redevient obligatoire dès lors que le retrait touche la liberté d’expression politique ou d’autres catégories chargées de droits fondamentaux.
La lecture transversale : plus le plafond de préjudice monte, plus la matrice vous pousse à gauche ; plus le budget de latence se contracte, plus elle vous pousse à droite. Les systèmes réels se logent à l’intersection.
Comment industrialiser la supervision
Une routine en cinq étapes aligne la matrice avec la documentation ISO 42001 et la preuve d’audit attendue au titre de l’article 14 :
- Classer le système au regard des niveaux de risque du Règlement IA, de l’article 22 du RGPD, des réglementations sectorielles et des obligations contractuelles. Cela détermine la ligne
niveau de risque réglementairede la matrice. - Noter le système sur les six autres axes. Écrivez les notes. Le mode tombe des notes.
- Documenter le choix dans la déclaration d’applicabilité ISO 42001 (annexe A.6.2.6), avec une référence à la matrice et un rationnel signé.
- Instrumenter l’exécution. Chemin d’override, cible de latence, piste d’audit par décision (ou par version de modèle selon la ligne), registres de formation, tableau de bord du taux d’override.
- Revoir trimestriellement. Taux d’override, taux de faux tamponnage (échantillon des
approuvés), signaux de fatigue des réviseurs, évolution réglementaire ou technique pesant sur une ligne.
La boucle se ferme lorsque le tableau de bord confirme le choix initial ou révèle une ligne déplacée ; on re-note alors, et l’on met à jour la SoA. Les équipes qui pilotent la gouvernance IA à l’échelle d’un portefeuille passent vite par un outillage dédié. AI Sigil est conçu autour de ce flux précis.
Questions fréquentes
Existe-t-il une vraie différence entre human-in-the-loop et human-on-the-loop ? Oui. Le HITL suspend l’IA et attend une approbation humaine. Le HOTL laisse l’IA agir et confie à l’humain le pouvoir d’observer et d’arbitrer. La différence n’est pas esthétique : elle change le budget de latence, la piste d’audit, le modèle d’organisation et l’exposition réglementaire. Les confondre est une dette de conformité à retardement.
Comment expliquer le human-on-the-loop simplement ? L’IA fait le travail, une personne le surveille, peut l’interrompre et réexamine un échantillon des sorties. C’est le bon réglage quand vous ne pouvez ni valider chaque décision, ni laisser le système tourner sans regard humain.
Qui a forgé le terme human-in-the-loop ? L’expression existait déjà dans la littérature de modélisation et simulation, mais la trichotomie moderne (in/on/out) a été popularisée par Bonnie Docherty dans le rapport Losing Humanity de Human Rights Watch en 2012. Le département américain de la Défense l’a adoptée dans la directive 3000.09 peu après.
Où le Règlement IA cite-t-il le human-in-the-loop ? Il ne le cite pas explicitement. L’article 14 impose une supervision effective par des personnes physiques, liste quatre capacités (comprendre, surveiller, intervenir, interrompre) et exige une proportionnalité aux risques, au niveau d’autonomie et au contexte. Les libellés HITL et HOTL sont les outils que le déployeur choisit pour satisfaire ce cahier des charges.
Le human-in-the-loop suffit-il pour un système à haut risque ? Uniquement s’il est sincère. L’article 14 §4 demande que le superviseur puisse comprendre, surveiller, intervenir, interrompre et arbitrer. Un approbateur nominal qui tamponne ne franchit pas ce seuil. Le taux d’override, la latence d’override et la formation sont les preuves attendues par l’auditeur.
Qu’est-ce que le human-in-command et en quoi se distingue-t-il ? En HIC, l’humain est le principal décideur et l’IA prolonge son geste : pilote en autopilote, chirurgien sur console robotique. La différence avec le HITL tient à la propriété de la décision : en HITL, l’IA propose et l’humain valide ; en HIC, l’humain décide et l’IA exécute.
Peut-on combiner les modes dans un même système ? Oui, c’est la norme en production. Faites tourner le HOTL sur le pipeline de masse, routez les cas à faible confiance vers une file HITL, conservez le HOOTL pour les boucles de rétroaction qui ne tolèrent aucune latence. La matrice s’applique par chemin de décision, pas par système.
Conclusion
Les libellés ne sont pas un argument commercial. Ils condensent une décennie de débat sur l’autonomie tolérable d’une machine face à des décisions de vie ou de mort. La gouvernance civile a hérité du vocabulaire en même temps que de l’obligation de l’employer avec précision.
La bonne posture est structurelle. Évaluez chaque chemin de décision sur les sept axes. Retenez le mode le plus autonome compatible. Inscrivez le mode et son rationnel dans la SoA ISO 42001. Instrumentez le chemin d’override avec la rigueur exigée par l’article 14 §4(d) et MANAGE-2.4. Suivez le taux d’override et le taux de faux tamponnage. Ré-évaluez dès que le système, les données ou la réglementation bougent.
L’alternative, retenir un libellé parce qu’un blog d’éditeur l’a employé, est la voie courte vers la case cochée puis le constat de non-conformité. La matrice est la façon d’être sûr que l’étiquette posée correspond à ce que le système fait réellement.
Pour aller plus loin sur l’article 14 lui-même, l’analyse dédiée d’AI Sigil constitue le pendant de cet article. Pour la cartographie des contrôles ISO 42001, le pilier dimensionné sur la norme est l’étape suivante.