26/05/2026

Le risque majeur de l’IA générative : pourquoi les hallucinations dominent toutes les autres défaillances

L’essentiel

La plupart des classements énumèrent huit à douze risques de l’IA générative. La requête en demande un seul, et un seul s’impose structurellement : l’hallucination, que la terminologie américaine appelle « confabulation ».
Le profil NIST AI 600-1 classe la confabulation parmi les douze catégories de risques propres à l’IA générative, et la traite comme une propriété structurelle de la technologie, non comme un défaut transitoire.
Les travaux récents montrent qu’augmenter les données d’entraînement n’élimine pas les hallucinations : GPT-4o et Claude 3.7 produisent encore 15 à 20 % de citations inventées sur les tâches factuelles, et 35 à 55 % sur les sujets de niche ou récents.
Le règlement européen sur l’IA encadre directement ce risque par les articles 50 et 51 à 55 (transparence, marquage des contenus synthétiques, évaluation des modèles GPAI, résumé des données d’entraînement).
Tous les autres risques régulièrement cités (biais, atteinte à la propriété intellectuelle, fuites de données, deepfakes) aggravent la même cause racine : une sortie dont l’utilisateur ne peut vérifier le statut épistémique.

Pourquoi la question « un seul risque » est à la fois mal posée et bien posée

Tapez « what is one major risk associated with generative AI models » dans Google : la SERP répond par des listes de huit, dix, douze risques. SentinelOne en compte dix. AIMultiple en compte dix. IBM en compte dix. ICAEW en compte quatre. La requête en demandait un. Les résultats en proposent beaucoup.

Cette posture défensive du listicle n’est pas neutre. Elle vient d’éditeurs de cybersécurité qui veulent paraître exhaustifs et de cabinets d’audit dont le modèle d’affaires repose sur la vente d’une couverture large. Sur le plan analytique, c’est une erreur de catégorisation. Une liste de dix éléments suppose qu’ils sont commensurables, qu’on peut les traiter indépendamment, et que les hiérarchiser relève du goût. Pour l’IA générative, ces trois prémisses sont fausses.

Le MIT Sloan propose une lecture plus utile, distinguant les risques embarqués, inhérents à la technologie, et les risques actés, qui dépendent de la manière dont une organisation déploie le système (MIT Sloan). Les risques embarqués survivent à tous les choix de déploiement. Les risques actés peuvent être désamorcés par des contrôles et des processus. Le critère de dominance pour répondre à « un seul risque majeur » devient alors : lequel est entièrement embarqué, lequel ne peut être conçu en dehors du modèle, et lequel tout déploiement orienté utilisateur doit-il hériter ?

Un seul candidat passe ce test. Les biais peuvent être atténués par la curation des données. L’exposition à la propriété intellectuelle peut être réduite par la traçabilité des sources d’entraînement. L’injection de prompt peut être défendue au niveau applicatif. Aucune de ces défaillances n’est structurelle au modèle lui-même. L’hallucination, si.

La réponse : l’hallucination (confabulation) est le risque dominant

Dans le vocabulaire réglementaire américain, la défaillance s’appelle « confabulation ». Le profil NIST AI 600-1, publié en juillet 2024 comme complément intersectoriel du AI Risk Management Framework 1.0, recense douze risques propres à l’IA générative ou amplifiés par elle : informations ou capacités CBRN, confabulation, contenus dangereux ou violents ou haineux, vie privée des données, impacts environnementaux, biais nuisibles et homogénéisation, configuration humain-IA, intégrité de l’information, sécurité de l’information, propriété intellectuelle, contenus obscènes ou dégradants ou abusifs, et intégration de la chaîne de valeur (NIST AI 600-1). La confabulation figure en tête de la liste pour une raison précise : toutes les autres catégories du profil interagissent avec elle.

Un article arXiv de 2025 signé Charles Rathkopf formule explicitement l’argument structurel : tout modèle génératif visant à produire des données complexes et structurées finit par halluciner, et même des augmentations massives du volume de données d’entraînement ne feront pas disparaître ces erreurs (Rathkopf, 2025). Les erreurs ne sont pas héritées du corpus d’entraînement. Elles sont produites par le modèle lui-même. Le même article documente l’échelle opérationnelle du phénomène. GPT-4o et Claude 3.7 affichent encore 15 à 20 % d’hallucination sur des tâches de citation factuelle, et de 35 à 55 % sur des sujets de niche ou récents. Une analyse séparée portant sur 4 841 articles acceptés à NeurIPS 2025 a identifié au moins 100 citations hallucinées confirmées, réparties sur 53 articles, soit environ 1 % des travaux acceptés dans une conférence pourtant dotée d’une relecture rigoureuse.

Un second article de 2025, Beyond Accuracy: Rethinking Hallucination and Regulatory Response in Generative AI, soutient que les cadres actuels héritent d’une vision trop étroite de l’hallucination et propose une lecture en couches : instabilité épistémique à l’intérieur du modèle, désorientation de l’utilisateur à l’interface, effets d’échelle sociale lorsque les sorties hallucinées se propagent dans la recherche, le journalisme, la littérature scientifique et l’aide à la décision (arXiv 2509.13345). Chaque couche multiplie l’impact de celle qui la précède.

Pourquoi ce risque domine-t-il ? Tous les dommages avals associés à l’IA générative présupposent que la sortie peut être prise pour argent comptant. Une affaire de diffamation commence lorsqu’un LLM invente un casier judiciaire à une personne réelle. Une non-divulgation réglementaire débute lorsque l’analyste colle des chiffres hallucinés dans un rapport annuel. Une mauvaise orientation clinique survient quand un assistant de triage fabrique une interaction médicamenteuse. Aucune de ces défaillances n’a lieu si l’utilisateur peut vérifier la sortie, et c’est précisément ce contrôle de vérifiabilité que la confabulation supprime.

Confabulation, mensonge et biais : ne pas confondre

La confabulation est structurelle, non adversariale. Le modèle ne trompe personne. Il génère des jetons à forte plausibilité locale parce que c’est l’objectif que la prédiction de jeton suivant récompense. Cela diffère de l’injection de prompt, où un tiers oriente délibérément le modèle hors de son comportement prévu, et cela diffère du biais, qui est une propriété statistique des données d’entraînement et des frontières de décision. La confabulation peut coexister avec les deux. Un modèle confabulant peut être biaisé et peut être exploité, et le biais comme l’exploit seront plus efficaces parce que l’utilisateur ne distingue pas la sortie autorisée de la sortie inventée.

Comment les régulateurs traitent ce risque

La convergence est frappante. Trois des régimes de gouvernance les plus structurants (le règlement européen sur l’IA, NIST AI 600-1 et la norme ISO/IEC 42001) traitent l’hallucination, la transparence et la vérifiabilité des sorties génératives comme des contraintes de conception centrales, même quand ils utilisent un vocabulaire différent.

Règlement IA de l’UE : obligations de transparence de l’article 50

L’article 50 du règlement IA impose des obligations de transparence aux systèmes destinés à interagir avec des personnes physiques et aux systèmes générant des contenus synthétiques. Les fournisseurs doivent marquer la sortie comme générée artificiellement dans un format lisible par machine. Les déployeurs de systèmes d’IA générant ou manipulant des contenus image, audio ou vidéo constituant des hypertrucages doivent indiquer que le contenu a été généré ou manipulé artificiellement. Ces obligations existent parce que le législateur a conclu que les sorties génératives ne peuvent s’auto-identifier de manière fiable, ce qui est la définition opérationnelle du risque de confabulation transposée dans le droit (Parlement européen, AI Act).

La Commission a été explicite. Au titre du règlement sur les services numériques, elle a adressé des demandes formelles d’information à six très grandes plateformes en ligne et à deux très grands moteurs de recherche sur les mesures d’atténuation des risques de l’IA générative. La liste des risques nommés par la Commission s’ouvre sur « les hallucinations, où l’IA fournit de fausses informations », et se poursuit avec la diffusion virale d’hypertrucages, la manipulation automatisée des services et des processus électoraux, la diffusion de contenus illégaux, les atteintes aux droits fondamentaux et l’exposition à la propriété intellectuelle (Commission européenne, demandes d’information GenAI, 2024).

Règlement IA de l’UE : obligations GPAI (articles 51 à 55)

Les modèles d’IA à usage général disposent de leur propre chapitre. L’article 51 distingue le GPAI ordinaire du GPAI à risque systémique. L’article 53 oblige les fournisseurs de tout modèle GPAI à publier une documentation technique, une politique d’usage acceptable et un résumé suffisamment détaillé du contenu utilisé pour l’entraînement (article 53, paragraphe 1, point d). L’article 55 ajoute pour les modèles à risque systémique une évaluation des modèles, des tests adversariaux, un signalement des incidents graves et des exigences de cybersécurité. Le résumé des données d’entraînement et l’obligation de tests adversariaux reconnaissent que la génération opaque, où les sorties ne se rattachent pas à une provenance identifiable, est un danger réglementaire.

La majeure partie du règlement s’applique au 2 août 2026. Les interdictions et les dispositions relatives à la maîtrise de l’IA s’appliquent depuis le 2 février 2025.

NIST AI 600-1 : la confabulation parmi douze catégories

Comme indiqué plus haut, le profil NIST AI 600-1 place la confabulation aux côtés des risques CBRN, de la vie privée des données, des biais nuisibles, de l’intégrité de l’information, de la sécurité de l’information, de la propriété intellectuelle et de l’intégration de la chaîne de valeur. Il propose plus de deux cents actions recommandées rattachées aux quatre fonctions du AI RMF de base (Govern, Map, Measure, Manage). Pour la confabulation, les actions recommandées convergent vers l’ancrage des sorties dans des sources vérifiables, la communication de l’incertitude à l’utilisateur et la structuration d’une supervision humaine au niveau de l’interface.

ISO/IEC 42001 : la réponse opérationnelle

ISO/IEC 42001:2023, première norme internationale pour les systèmes de management de l’IA (AIMS), offre aux organisations un cadre certifiable. Sa clause 6.1.3 (traitement du risque) et ses contrôles d’annexe A relatifs à l’évaluation d’impact d’un système d’IA, à la qualité des données et à la supervision humaine opérationnalisent la réponse à la confabulation comme un contrôle documenté. La norme exige des évaluations d’impact pour les systèmes à fort impact et impose l’identification, l’évaluation et l’atténuation documentées des biais, de la responsabilité, de la protection des données, de la supervision humaine, de l’explicabilité et de l’équité (ISO/IEC 42001:2023). Un AIMS certifié donne une réponse défendable à la question « comment gérez-vous la confabulation en production ? » parce que la norme transforme cette question en preuves auditables plutôt qu’en garanties de circonstance.

Pourquoi tous les autres risques cités dépendent de celui-ci

Les listicles ne se trompent pas sur les éléments qu’ils énumèrent. Ils se trompent sur la structure. Biais, propriété intellectuelle, fuites de données, hypertrucages : ces risques sont réels et conséquents. Ils sont aussi, à des degrés divers, dérivés du déficit de vérifiabilité que la confabulation crée.

Biais

La publication NIST SP 1270 distingue trois couches de biais dans l’IA : biais computationnel provenant des données et des choix de modélisation, biais systémique issu de schémas institutionnels plus larges, et biais humain dans l’interprétation et l’usage (NIST SP 1270). Le biais devient un problème de déploiement quand l’utilisateur ne peut vérifier si une sortie reflète les éléments probants sous-jacents ou un artefact statistique. Si l’on ne peut savoir si la réponse est inventée, on ne peut savoir si elle est biaisée non plus. Les deux modes de défaillance partagent le même angle mort diagnostique.

Propriété intellectuelle et droit d’auteur

Les modèles génératifs entraînés sur du matériel protégé peuvent produire des sorties qui reproduisent ou paraphrasent étroitement la source. L’article 53, paragraphe 1, point d, du règlement IA impose aux fournisseurs de publier un résumé suffisamment détaillé des données d’entraînement, contrôle de transparence visant la même cause racine : des sorties dont la filiation au matériau source n’est pas reconstituable. Le code de pratique sur le marquage et l’étiquetage des contenus générés par IA s’inscrit dans la même lignée de contrôles de restauration de la provenance.

Fuites de données et injection de prompt

La publication NIST AI 100-2 E2025, mise à jour 2025 de la taxonomie officielle américaine des attaques d’apprentissage adversarial, classe les attaques sur l’IA prédictive et sur l’IA générative. L’OWASP AI Exchange traite l’injection de prompt comme une catégorie distincte mais documente le levier que les attaquants obtiennent quand ils peuvent façonner des sorties génératives que l’utilisateur prend pour autorisées. L’injection de prompt est dangereuse parce que l’utilisateur ne dispose pas d’un moyen fiable de distinguer une réponse orientée par l’attaquant d’une réponse légitime, ce qui est encore une fois le problème de la confabulation exprimé dans un cadre de sécurité.

Hypertrucages

Les contenus image, audio et vidéo synthétiques produits par les modèles génératifs constituent le visage politiquement visible du risque de confabulation. L’article 50, paragraphe 4, du règlement IA impose la divulgation lorsque le contenu déployé constitue un hypertrucage. La Commission européenne a publié un code de pratique sur le marquage et l’étiquetage des contenus générés par IA. Il ne s’agit pas d’interventions réglementaires distinctes ciblant des risques distincts. C’est la même intervention, appliquée à différentes modalités de sortie.

Ce que cela implique pour les déployeurs (le mode opératoire)

Une organisation déployeuse ne peut éliminer l’hallucination au niveau du modèle. Elle peut en revanche concevoir son déploiement de manière à intercepter les sorties hallucinées avant qu’elles n’atteignent un utilisateur ou un régulateur. Quatre couches, chacune ancrée à une obligation ou à un contrôle nommés :

Évaluation d’impact du système d’IA (ISO/IEC 42001 annexe A.6, article 27 du règlement IA pour l’impact sur les droits fondamentaux). Avant de déployer un système génératif sur une surface orientée utilisateur, documentez les types de sorties que le système produira, les catégories d’utilisateurs concernées et les endroits où une sortie hallucinée créerait le plus grand préjudice concret. Cet artefact devient la porte d’entrée de tous les contrôles avals.
Divulgation et provenance des contenus (article 50 du règlement IA). Marquez les sorties générées par machine comme telles. Appliquez des métadonnées de provenance (C2PA ou équivalent) sur les médias synthétiques. Quand le modèle est déployé dans une interface conversationnelle, la divulgation doit figurer à l’écran, et non être enfouie dans des conditions générales d’utilisation.
Vérification humaine sur les sorties à fort enjeu (article 14 du règlement IA pour les systèmes à haut risque, article 26 pour les obligations des déployeurs, fonction Manage du NIST AI 600-1). Pour les sorties qui influencent des décisions réglementées (crédit, assurance, recrutement, triage clinique, conseil juridique), exigez un relecteur humain doté de l’autorité et de la compétence pour passer outre. L’efficacité du relecteur dépend d’un outillage qui fait apparaître l’incertitude, pas seulement le texte.
Journalisation des incidents et surveillance après commercialisation (article 72 du règlement IA, clause 9 d’ISO/IEC 42001). Journalisez les événements de confabulation comme un éditeur logiciel journalise les incidents de production. Suivez fréquence, impact, mesures correctives. Réintroduisez le journal dans l’ingénierie de prompt, l’ancrage par récupération et les choix de réentraînement.

Une plateforme telle qu’AI Sigil opérationnalise ces couches sur une surface unique de système de management : l’évaluation d’impact, le registre de divulgation, le flux de supervision humaine et le journal d’incidents deviennent des objets de premier rang, et non des artefacts épars.

Horizon 2026 : où cela mène

Quatre signaux convergent sur la seconde moitié de 2026.

Premièrement, l’essentiel du règlement IA s’applique au 2 août 2026. Les obligations GPAI entrent en vigueur. Les autorités de surveillance du marché des États membres commencent à sanctionner formellement les fournisseurs et les déployeurs qui ne marquent pas les contenus synthétiques, ne documentent pas les données d’entraînement ou n’opérationnalisent pas leurs obligations de gestion du risque.

Deuxièmement, l’action de la Commission au titre du DSA sur les risques de l’IA générative, déjà engagée avec les demandes formelles d’information de 2024, passe de la collecte d’informations aux obligations de fond. Les responsables conformité plateforme devront démontrer, mesure à l’appui, que les sorties hallucinées n’influencent ni les conversations électorales ni la diffusion de contenus illégaux.

Troisièmement, la littérature académique repositionne l’hallucination : de curiosité technique à problème de sécurité épistémique. La lecture en couches proposée par Beyond Accuracy (instabilité épistémique, désorientation de l’utilisateur, effets d’échelle sociale) devient une référence pour les régulateurs et les auditeurs.

Quatrièmement, les certifications et les normes rattrapent leur retard. Les certifications ISO/IEC 42001 montent en charge. Les organisations qui ont bâti leurs contrôles IA générative autour du risque d’hallucination verront leur travail de certification porter sous tout ce qui viendra ensuite. Celles qui les ont bâtis autour d’un listicle générique devront tout refaire.

Questions fréquentes

Que veut dire « hallucination » dans le contexte de l’IA générative ? Une hallucination est le mode de défaillance par lequel un modèle génératif produit une sortie qui paraît plausible mais qui est factuellement fausse ou inventée. Le NIST emploie le terme technique de « confabulation ». La sortie n’est pas le produit d’un bug logiciel ni d’une erreur de recherche en base. Elle est générée par le modèle de la même manière que tous ses autres jetons : en sélectionnant des jetons à forte probabilité locale étant donné le contexte. Le modèle ne signale pas quelles parties de sa sortie sont fiables, ce qui rend la défaillance dangereuse.

L’hallucination, est-ce la même chose que le biais ? Non. Le biais est une propriété statistique de la manière dont les décisions d’un modèle se distribuent entre groupes, contextes ou modalités. L’hallucination est une défaillance au niveau du contenu où le modèle produit une information qui ne correspond à aucune source sous-jacente. Les deux peuvent coexister. Un modèle confabulant peut être biaisé. Mais atténuer le biais (par la curation des données, les tests d’équité, la calibration) n’atténue pas la confabulation, et inversement.

Peut-on éliminer l’hallucination en augmentant le volume de données d’entraînement ? Non. L’article arXiv de 2025 Hallucination, reliability, and the role of generative AI in science est explicite : même des augmentations massives des données d’entraînement n’élimineront pas l’hallucination, parce que les erreurs sont produites par le processus de génération lui-même, et non simplement héritées du corpus. Des contrôles d’ingénierie (génération augmentée par récupération, ancrage des sorties, estimation d’incertitude, relecture humaine) peuvent en réduire la fréquence et l’impact, mais aucune technique actuelle ne supprime le mode de défaillance au niveau du modèle.

Que dit précisément le règlement européen sur l’IA à propos des hallucinations ? Le règlement n’emploie pas le mot « hallucination ». Il traite le problème sous-jacent indirectement, via l’article 50 (transparence et marquage des contenus synthétiques), les articles 51 à 55 (obligations GPAI, dont le résumé des données d’entraînement, la documentation technique et l’évaluation des modèles systémiques) et l’article 26 (responsabilités du déployeur). La Commission européenne, dans son action DSA, a nommé les hallucinations en première position des risques de l’IA générative à atténuer.

Comment un déployeur peut-il réduire le risque d’hallucination en production ? Quatre couches appliquées ensemble : une évaluation d’impact documentée qui nomme les scénarios de préjudice ; un marquage de divulgation et de provenance des contenus sur les sorties ; une vérification humaine sur les sorties qui influencent des décisions réglementées ; et une journalisation des incidents reliée à la surveillance après commercialisation. Aucune de ces mesures n’élimine l’hallucination, mais ensemble elles convertissent une exposition ouverte en risque géré, avec contrôles documentés et piste d’audit.

Conclusion

La SERP répond à « what is one major risk associated with generative AI models » par une liste de dix. La réponse honnête est une seule. L’hallucination, appelée confabulation dans le vocabulaire américain, est le risque dominant parce qu’elle est embarquée dans la technologie plutôt qu’actée par le déployeur, parce que régulateurs et normes convergent vers elle, parce que la recherche 2025 montre que la mise à l’échelle ne la résout pas, et parce que tous les autres risques régulièrement cités aggravent le même déficit de vérifiabilité. Le travail de toute organisation déployant de l’IA générative consiste à convertir ce déficit en surface de contrôle gérée : évaluation d’impact, divulgation, supervision humaine, journalisation des incidents. Bien fait, ce travail survit à l’échéance d’application du 2 août 2026. Fait sous forme de listicle, non.

Pour un examen plus approfondi de la manière dont une plateforme de gouvernance IA structure ces contrôles, voir la plateforme AI Sigil et les ressources de Industry Insights.

Mathieu Lefebvre