L’importance de la provenance des données dans la gouvernance de l’IA

Pourquoi la provenance des données doit ancrer la stratégie de gouvernance de l’IA de chaque CISO

À travers l’entreprise, l’intelligence artificielle (IA) s’est intégrée dans les fonctions essentielles – non pas par le biais de programmes de transformation numérique massifs, mais par une adoption silencieuse et incrémentale. Les départements juridiques résument des contrats. Les ressources humaines reformulent des communications sensibles aux employés. Les équipes de conformité expérimentent l’automatisation de la diligence raisonnable. La plupart de ces fonctions reposent sur des modèles de langage de grande taille (LLMs), souvent introduits discrètement, intégrés dans des plateformes SaaS, des outils de productivité ou des projets pilotes internes.

Ce n’est pas l’adoption qui m’inquiète. C’est l’hypothèse de sécurité : l’hypothèse selon laquelle un modèle populaire ou « prêt pour l’entreprise » doit également être conforme, sécurisé et gouverné. Ce que j’ai observé à la place, c’est un point aveugle dangereux : la disparition complète de la provenance des données.

Pourquoi la provenance, pas la politique, est la véritable ligne de défense

La provenance est plus qu’un simple journal. C’est le tissu conjonctif de la gouvernance des données. Elle répond à des questions fondamentales : D’où provient cette donnée ? Comment a-t-elle été transformée ? Qui l’a manipulée et selon quelle politique ? Dans le monde des LLMs – où les résultats sont dynamiques, le contexte est fluide et la transformation est opaque – cette chaîne de responsabilité se brise souvent au moment où un prompt est soumis.

Dans les systèmes traditionnels, nous pouvons généralement retracer la lignée des données. Nous pouvons reconstruire ce qui a été fait, quand et pourquoi. Mais dans les environnements basés sur des LLM, les prompts ne sont pas toujours enregistrés, les résultats sont parfois copiés à travers des systèmes, et les modèles eux-mêmes peuvent conserver des informations sans consentement clair. Nous sommes passés de flux de travail structurés et auditables à une boucle de décision en boîte noire. Dans des domaines très réglementés comme le juridique, la finance ou la confidentialité, cela représente une crise de gouvernance.

La prolifération de l’IA et le mythe du contrôle centralisé

Il est erroné de penser que l’adoption de l’IA est un effort centralisé. La plupart des entreprises sont déjà confrontées à la prolifération de l’IA alors que des dizaines d’outils, alimentés par différents LLMs, sont utilisés dans des parties déconnectées de l’entreprise. Certains sont approuvés et intégrés. D’autres sont expérimentés sous le radar. Chacun a son propre comportement de modèle, ses politiques de traitement des données et sa complexité juridictionnelle, et presque aucun d’entre eux n’a été conçu avec une architecture axée sur la sécurité ou la conformité.

Cette décentralisation signifie que l’organisation de la sécurité n’est plus en contrôle de la façon dont les informations sensibles sont traitées. Un seul employé peut copier des données confidentielles dans un prompt, recevoir un résultat et le coller dans un système d’enregistrement, complétant ainsi un cycle de données complet sans déclencher une seule alerte ou un audit.

Le défi du CISO n’est plus une question d’accès. Il s’agit d’intention, de flux et de finalité, et ceux-ci sont presque invisibles dans les environnements activés par l’IA.

Les réglementations n’ont pas de retard, elles évoluent en parallèle

Il existe une croyance populaire selon laquelle les régulateurs n’ont pas rattrapé l’IA. C’est seulement à moitié vrai. La plupart des lois modernes sur la protection des données – GDPR, CPRA, la DPDPA de l’Inde et la PDPL saoudienne – contiennent déjà des principes qui s’appliquent directement à l’utilisation des LLM : limitation des finalités, minimisation des données, transparence, spécificité du consentement et droits à l’effacement.

Le problème n’est pas la réglementation – c’est l’incapacité de nos systèmes à y répondre. Les LLMs brouillent les rôles : le fournisseur est-il un processeur ou un contrôleur ? Un résultat généré est-il un produit dérivé ou une transformation de données ? Lorsqu’un outil d’IA enrichit un prompt utilisateur avec des données d’entraînement, qui possède cet artefact enrichi, et qui est responsable s’il entraîne des dommages ?

Dans les scénarios d’audit, on ne vous demandera pas si vous avez utilisé l’IA. On vous demandera si vous pouvez prouver ce qu’elle a fait, et comment. La plupart des entreprises aujourd’hui ne le peuvent pas.

À quoi devrait ressembler la gouvernance moderne de l’IA

Pour reconstruire la confiance et la défendabilité, les CISO doivent inciter leurs organisations à repenser la gouvernance. Cela commence non pas par la politique, mais par l’infrastructure.

1. Cartographie des données continue et automatisée

Les interactions avec l’IA ne s’arrêtent pas aux systèmes statiques. Elles se produisent à travers des interfaces de chat, des API, des logiciels intermédiaires et des scripts internes. La cartographie doit évoluer pour tracer non seulement où résident les données, mais aussi où elles se déplacent et quels modèles les touchent. Si votre cartographie est basée sur des instantanés ou manuelle, elle est déjà obsolète.

2. RoPA conscient de l’IA et visibilité du traitement

Les Registres des Activités de Traitement (RoPA) doivent maintenant inclure la logique des modèles, le comportement des outils d’IA et l’exposition juridictionnelle. Il ne suffit pas de savoir quel fournisseur est utilisé. Vous devez savoir où le modèle est hébergé, comment il a été formé et quels risques il introduit dans le traitement en aval.

3. Réconciliation du consentement qui est dynamique et contextuelle

Le consentement capturé une fois n’est pas un consentement pour tout. Les équipes ont besoin de mécanismes qui alignent le consentement avec l’interaction avec le modèle : L’utilisateur a-t-il accepté l’enrichissement basé sur le modèle ? Le système d’IA fonctionne-t-il sous la finalité déclarée de la collecte ? Sinon, le consentement doit être vérifié ou signalé.

4. Journalisation des audits de prompts et de résultats

Dans la mesure du possible, les interactions avec les systèmes d’IA doivent être enregistrées, en mettant l’accent sur les prompts eux-mêmes. Les prompts contiennent souvent les données les plus sensibles et les capturer est essentiel pour comprendre quelles informations sont exposées. Bien que l’enregistrement des résultats et de l’utilisation en aval soit précieux, la journalisation au niveau des prompts doit être prioritaire, surtout lorsque l’audit complet n’est pas réalisable. Si vous ne pouvez pas retracer ce qui a été demandé, vous ne pouvez pas pleinement évaluer le risque.

5. Classification des résultats de l’IA et contrôles de conservation

Les résultats des LLMs doivent être classés et gouvernés. Si un système d’IA réécrit un document juridique, ce résultat peut nécessiter des contrôles de privilège juridique. S’il rédige un langage interne des ressources humaines, des délais de conservation peuvent s’appliquer. Les résultats ne sont pas éphémères – ils font partie du cycle de vie des données.

Le rôle du CISO évolue, et c’est une bonne chose

L’IA n’est pas seulement une tendance des données. C’est aussi un événement des données qui redéfinit notre façon de penser le contrôle. Les responsables de la sécurité ne protègent plus simplement les systèmes ou même les données. Nous protégeons le contexte : les métadonnées, l’intention et la légalité qui entourent chaque interaction avec une machine qui apprend et génère.

Cela nécessite que les CISO s’impliquent davantage dans la vie privée, la conformité, l’éthique et la gouvernance des documents. Cela signifie établir des ponts avec les équipes juridiques et les responsables de la conformité pour garantir que l’utilisation de l’IA ne se limite pas à respecter la politique, mais qu’elle reflète les valeurs de l’organisation et ses seuils de risque.

La gouvernance de l’IA ne doit pas être la propriété d’un seul département. Elle doit être dirigée par ceux d’entre nous qui comprennent le risque, la réponse et la résilience, et cela fait clairement partie de notre domaine.

La traçabilité est la nouvelle confiance

À l’ère de l’IA, il n’est plus suffisant de dire : « Nous ne savions pas. » On vous demandera ce qui a été introduit dans le modèle, qui a approuvé son utilisation, comment le consentement a été géré, pouvons-nous reproduire la logique qui a conduit à cette décision, où est la preuve. Si vos systèmes ne peuvent pas répondre à ces questions avec confiance, vous ne gouvernez pas l’IA – vous espérez le meilleur.

La confiance dans l’IA ne viendra pas des politiques. Elle viendra de la provenance. Et cela commence par la visibilité, la rigueur et le leadership depuis le sommet même de l’organisation de la sécurité.