Le Dilemme des Données de l’IA : Confidentialité, Réglementation et l’Avenir de l’IA Éthique
Les solutions basées sur l’IA sont rapidement adoptées dans divers secteurs, services et produits chaque jour. Cependant, leur efficacité dépend entièrement de la qualité des données sur lesquelles elles sont formées – un aspect souvent mal compris ou négligé dans le processus de création des ensembles de données.
Alors que les autorités de protection des données intensifient leur examen sur la manière dont les technologies de l’IA s’alignent avec les réglementations de confidentialité et de protection des données, les entreprises font face à une pression croissante pour sourcer, annoter et affiner les ensembles de données de manière conforme et éthique.
Existe-t-il vraiment une approche éthique pour construire des ensembles de données d’IA ? Quels sont les plus grands défis éthiques auxquels les entreprises font face et comment les abordent-elles ? Et comment les cadres juridiques évolutifs impactent-ils la disponibilité et l’utilisation des données d’entraînement ? Explorons ces questions.
Confidentialité des Données et IA
Par nature, l’IA nécessite beaucoup de données personnelles pour exécuter des tâches. Cela a soulevé des préoccupations concernant la collecte, la conservation et l’utilisation de ces informations. De nombreuses lois à travers le monde réglementent et limitent l’utilisation des données personnelles, du RGPD et de la nouvelle Loi sur l’IA en Europe à la HIPAA aux États-Unis, qui régule l’accès aux données des patients dans l’industrie médicale.
Par exemple, quatorze États américains disposent actuellement de lois sur la confidentialité des données, six autres devant entrer en vigueur en 2025 et début 2026. La nouvelle administration a signalé un changement dans son approche de l’application de la confidentialité des données au niveau fédéral. Un des points de focalisation est la réglementation de l’IA, mettant l’accent sur la promotion de l’innovation plutôt que sur l’imposition de restrictions. Ce changement inclut l’abrogation d’anciens décrets exécutifs sur l’IA et l’introduction de nouvelles directives pour guider son développement et son application.
La législation sur la protection des données évolue dans divers pays : en Europe, les lois sont plus strictes, tandis qu’en Asie ou en Afrique, elles tendent à être moins rigoureuses.
Cependant, les informations personnellement identifiables (PII) – telles que les images faciales, les documents officiels comme les passeports, ou toute autre donnée personnelle sensible – sont généralement restreintes dans la plupart des pays dans une certaine mesure. Selon le Commerce et Développement de l’ONU, la collecte, l’utilisation et le partage d’informations personnelles avec des tiers sans avis ou consentement des consommateurs sont une préoccupation majeure pour la plupart du monde. 137 pays sur 194 ont des réglementations assurant la protection des données et la confidentialité. En conséquence, la plupart des entreprises mondiales prennent d’énormes précautions pour éviter d’utiliser des PII pour l’entraînement des modèles, car des réglementations comme celles de l’UE interdisent strictement de telles pratiques, avec des exceptions rares trouvées dans des niches fortement réglementées telles que l’application de la loi.
Au fil du temps, les lois sur la protection des données deviennent plus complètes et appliquées au niveau mondial. Les entreprises adaptent leurs pratiques pour éviter des défis juridiques et répondre aux exigences légales et éthiques émergentes.
Quelles Méthodes les Entreprises Utilisent-elles pour Obtenir des Données ?
Lorsqu’il s’agit d’étudier les enjeux de protection des données pour l’entraînement des modèles, il est essentiel de comprendre d’où les entreprises obtiennent ces données. Il existe trois sources principales de données.
- Collecte de Données
Cette méthode permet de rassembler des données à partir de plateformes de crowdsourcing, de stocks de médias et d’ensembles de données open-source. Il est important de noter que les médias publics sont soumis à différents accords de licence. Même une licence d’utilisation commerciale stipule souvent explicitement que le contenu ne peut pas être utilisé pour l’entraînement des modèles. Ces attentes diffèrent d’une plateforme à l’autre et nécessitent que les entreprises confirment leur capacité à utiliser le contenu de la manière dont elles en ont besoin.
Même lorsque les entreprises d’IA obtiennent du contenu légalement, elles peuvent encore faire face à des problèmes. L’avancement rapide de l’entraînement des modèles d’IA a largement dépassé les cadres juridiques, ce qui signifie que les règles et réglementations entourant les données d’entraînement de l’IA sont encore en évolution. Par conséquent, les entreprises doivent rester informées des développements juridiques et examiner attentivement les accords de licence avant d’utiliser du contenu de stock pour l’entraînement de l’IA.
- Création de Données
Une des méthodes les plus sûres pour préparer des ensembles de données consiste à créer un contenu unique, comme filmer des personnes dans des environnements contrôlés tels que des studios ou des lieux extérieurs. Avant de participer, les individus signent un formulaire de consentement pour utiliser leurs PII, spécifiant quelles données sont collectées, comment et où elles seront utilisées, et qui y aura accès. Cela garantit une protection juridique complète et donne aux entreprises la confiance qu’elles ne seront pas confrontées à des réclamations d’utilisation illégale des données.
Le principal inconvénient de cette méthode est son coût, surtout lorsque des données sont créées pour des cas limites ou des projets de grande envergure. Cependant, les grandes entreprises continuent d’utiliser cette approche pour au moins deux raisons. Premièrement, elle garantit la conformité totale avec toutes les normes et réglementations légales. Deuxièmement, elle fournit aux entreprises des données entièrement adaptées à leurs scénarios et besoins spécifiques, garantissant la plus haute précision dans l’entraînement des modèles.
- Génération de Données Synthétiques
Utilisation d’outils logiciels pour créer des images, du texte ou des vidéos basées sur un scénario donné. Cependant, les données synthétiques ont des limites : elles sont générées en fonction de paramètres prédéfinis et manquent de la variabilité naturelle des données réelles.
Cette absence peut nuire aux modèles d’IA. Bien que cela ne soit pas pertinent pour tous les cas et ne se produise pas toujours, il est important de se rappeler le « collapse du modèle » – un point auquel la dépendance excessive aux données synthétiques entraîne une dégradation du modèle, conduisant à des résultats de mauvaise qualité.
Les données synthétiques peuvent néanmoins être très efficaces pour des tâches basiques, telles que la reconnaissance de motifs généraux, l’identification d’objets ou la distinction d’éléments visuels fondamentaux comme les visages.
Cependant, ce n’est pas la meilleure option lorsqu’une entreprise doit entraîner un modèle entièrement depuis le début ou faire face à des scénarios rares ou très spécifiques.
Les situations les plus révélatrices se produisent dans des environnements de cabine, comme un conducteur distrait par un enfant, une personne montrant des signes de fatigue derrière le volant, ou même des cas de conduite imprudente. Ces points de données ne sont pas couramment disponibles dans les ensembles de données publics – et ne devraient pas l’être – car ils impliquent de vraies personnes dans des contextes privés. Étant donné que les modèles d’IA s’appuient sur des données d’entraînement pour générer des sorties synthétiques, ils ont du mal à représenter avec précision des scénarios qu’ils n’ont jamais rencontrés.
Lorsque les données synthétiques échouent, les données créées – collectées par le biais d’environnements contrôlés avec de vrais acteurs – deviennent la solution.
Les fournisseurs de solutions de données placent des caméras dans des voitures, engagent des acteurs et enregistrent des actions telles que s’occuper d’un bébé, boire dans un biberon, ou montrer des signes de fatigue. Les acteurs signent des contrats consentant explicitement à l’utilisation de leurs données pour l’entraînement de l’IA, garantissant ainsi la conformité avec les lois sur la confidentialité.
Responsabilités dans le Processus de Création des Ensembles de Données
Chaque participant au processus, du client à l’entreprise d’annotation, a des responsabilités spécifiques définies dans leur accord. La première étape consiste à établir un contrat, qui détaille la nature de la relation, y compris des clauses sur la non-divulgation et la propriété intellectuelle.
Considérons la première option pour travailler avec des données, à savoir lorsqu’elles sont créées de toutes pièces. Les droits de propriété intellectuelle stipulent que toute donnée créée par le fournisseur appartient à l’entreprise qui embauche, ce qui signifie qu’elle est créée en son nom. Cela signifie également que le fournisseur doit s’assurer que les données sont obtenues légalement et correctement.
En tant qu’entreprise de solutions de données, il est essentiel de garantir la conformité des données en vérifiant d’abord la juridiction dans laquelle les données sont créées, en obtenant le consentement approprié de toutes les personnes impliquées, et en garantissant que les données peuvent être légalement utilisées pour l’entraînement de l’IA.
Il est également important de noter qu’une fois que les données sont utilisées pour l’entraînement des modèles d’IA, il devient presque impossible de déterminer quelles données spécifiques ont contribué au modèle car l’IA les mélange toutes. Ainsi, la sortie spécifique n’a tendance pas à être son output réel, surtout lorsqu’il s’agit de millions d’images.
En raison de son développement rapide, ce domaine établit encore des lignes directrices claires pour la répartition des responsabilités. Cela est similaire aux complexités entourant les voitures autonomes, où des questions de responsabilité – qu’il s’agisse du conducteur, du fabricant ou de l’entreprise de logiciels – nécessitent encore une répartition claire.
Dans d’autres cas, lorsqu’un fournisseur d’annotation reçoit un ensemble de données pour annotation, il suppose que le client a obtenu les données légalement. S’il existe des signes clairs que les données ont été obtenues illégalement, le fournisseur doit le signaler. Cependant, de tels cas apparents sont extrêmement rares.
Il est également important de noter que les grandes entreprises, les corporations et les marques qui attachent de l’importance à leur réputation sont très prudentes quant à l’origine de leurs données, même si elles n’ont pas été créées de toutes pièces mais tirées d’autres sources légales.
En résumé, la responsabilité de chaque participant dans le processus de travail sur les données dépend de l’accord. On pourrait considérer ce processus comme faisant partie d’une « chaîne de durabilité » plus large, où chaque participant joue un rôle crucial dans le maintien des normes légales et éthiques.
Quelles Idées Reçues Existent Sur le Backend du Développement de l’IA ?
Une idée reçue majeure sur le développement de l’IA est que les modèles d’IA fonctionnent de manière similaire aux moteurs de recherche, rassemblant et agrégeant des informations pour les présenter aux utilisateurs en fonction des connaissances acquises. Cependant, les modèles d’IA, en particulier les modèles de langage, fonctionnent souvent sur la base de probabilités plutôt que d’une compréhension réelle. Ils prédisent des mots ou des termes en fonction de la probabilité statistique, en utilisant des motifs observés dans les données précédentes. L’IA ne « sait » rien ; elle extrapole, devine et ajuste des probabilités.
De plus, beaucoup supposent que l’entraînement de l’IA nécessite d’énormes ensembles de données, mais une grande partie de ce dont l’IA a besoin pour reconnaître – comme les chiens, les chats ou les humains – est déjà bien établie. L’accent est désormais mis sur l’amélioration de la précision et le raffinement des modèles plutôt que sur la réinvention des capacités de reconnaissance. Une grande partie du développement de l’IA d’aujourd’hui tourne autour de la fermeture des derniers petits écarts de précision plutôt que de recommencer à zéro.
Défis Éthiques et Impact de la Loi sur l’IA de l’Union Européenne et des Réglementations Américaines sur le Marché Mondial de l’IA
Lorsqu’on aborde les questions d’éthique et de légalité concernant le travail avec des données, il est également important de bien comprendre ce qui définit une IA « éthique ».
Le plus grand défi éthique auquel les entreprises sont confrontées aujourd’hui en matière d’IA est de déterminer ce qui est considéré comme inacceptable pour l’IA à faire ou à apprendre. Il existe un large consensus selon lequel l’IA éthique doit aider plutôt que nuire aux humains et éviter la tromperie. Cependant, les systèmes d’IA peuvent commettre des erreurs ou « halluciner », ce qui complique la détermination de savoir si ces erreurs constituent de la désinformation ou un préjudice.
L’éthique de l’IA est un débat majeur avec des organisations comme l’UNESCO qui s’impliquent – avec des principes clés autour de l’auditabilité et de la traçabilité des résultats.
Les cadres juridiques entourant l’accès aux données et l’entraînement de l’IA jouent un rôle significatif dans la formation du paysage éthique de l’IA. Les pays ayant moins de restrictions sur l’utilisation des données permettent un accès plus facile aux données d’entraînement, tandis que les nations avec des lois sur les données plus strictes limitent la disponibilité des données pour l’entraînement de l’IA.
Par exemple, l’Europe, qui a adopté la Loi sur l’IA, et les États-Unis, qui ont supprimé de nombreuses réglementations sur l’IA, offrent des approches contrastées qui indiquent le paysage mondial actuel.
La Loi sur l’IA de l’Union Européenne a un impact significatif sur les entreprises opérant en Europe. Elle impose un cadre réglementaire strict, rendant difficile pour les entreprises d’utiliser ou de développer certains modèles d’IA. Les entreprises doivent obtenir des licences spécifiques pour travailler avec certaines technologies, et dans de nombreux cas, les réglementations rendent effectivement trop difficile pour les petites entreprises de se conformer à ces règles.
En conséquence, certaines startups peuvent choisir de quitter l’Europe ou d’éviter d’y opérer complètement, similaire à l’impact observé avec les réglementations sur les cryptomonnaies. Les grandes entreprises qui peuvent se permettre l’investissement nécessaire pour répondre aux exigences de conformité peuvent s’adapter. Cependant, la Loi pourrait faire fuir l’innovation en IA d’Europe au profit de marchés comme les États-Unis ou Israël, où les réglementations sont moins strictes.
La décision des États-Unis d’investir des ressources majeures dans le développement de l’IA avec moins de restrictions pourrait également avoir des inconvénients, mais inviterait davantage de diversité sur le marché. Alors que l’Union Européenne se concentre sur la sécurité et la conformité réglementaire, les États-Unis favoriseront probablement plus de prise de risques et d’expérimentations de pointe.