Quel est l’objectif des cartes de données concernant la documentation des ensembles de données et le développement responsable de l’IA ?
Les cartes de données sont des résumés structurés des faits critiques concernant les ensembles de données d’apprentissage automatique, conçus pour favoriser une documentation transparente, ciblée et centrée sur l’humain pour un développement responsable de l’IA, tant dans la recherche que dans l’industrie. Ces résumés couvrent divers aspects du cycle de vie d’un ensemble de données, offrant des explications sur les processus et les justifications qui façonnent les données et, par conséquent, les modèles entraînés sur celles-ci.
Objectifs clés :
- Transparence et explicabilité : Les cartes de données visent à accroître la visibilité des ensembles de données et des modèles, répondant ainsi aux préoccupations réglementaires concernant la transparence dans l’apprentissage automatique.
- Prise de décision éclairée : Elles encouragent des décisions éclairées concernant les données lors de la construction et de l’évaluation de modèles d’apprentissage automatique pour les produits, les politiques et la recherche.
- Atténuation des risques : En communiquant les incertitudes et les limitations connues, les cartes de données aident à atténuer les risques et à promouvoir des modèles plus justes et plus équitables.
- Réduction de l’asymétrie des connaissances : L’approche systématique des cartes de données contribue à réduire les asymétries de connaissances entre les parties prenantes en fournissant un modèle mental et un vocabulaire communs.
Implications pratiques et cadres de travail :
- Cadre OFTEn : Ce cadre d’acquisition de connaissances structuré fournit une approche robuste et reproductible permettant aux producteurs d’ensembles de données de créer une documentation transparente, en se concentrant sur les Origines, les Faits, les Transformations, l’Expérience et les exemples.
- Évolutivité et adoption : Les cartes de données sont conçues pour être adaptables à divers ensembles de données et contextes organisationnels, établissant un terrain d’entente entre les parties prenantes et permettant une contribution diversifiée aux décisions. Les facteurs ayant un impact sur la durabilité à long terme comprennent les asymétries de connaissances, les incitations à la création de documentation, la compatibilité de l’infrastructure et la culture de la communication.
- Engagement des parties prenantes : Les cartes de données doivent prendre en compte différents « agents » ou parties prenantes tels que les chercheurs, les experts en la matière ou les professionnels des politiques, chacun ayant des besoins uniques en matière de transparence.
- Dimensions d’évaluation : Pour garantir la qualité et l’utilité des cartes de données, des dimensions telles que la responsabilité, l’utilité, la qualité, l’impact et le risque sont utilisées pour évaluer la rigueur et l’efficacité de la documentation.
. OFTEn peut être visualisé comme l’intersection d’invites clés autour de (qui, quoi, quand, où, pourquoi et comment) et des aspects du cycle de vie de l’ensemble de données pour guider la documentation
L’adoption de cartes de données peut révéler de futures opportunités d’améliorer les décisions de conception des ensembles de données. À mesure que les organisations étendent leur utilisation des cartes de données, il devient crucial de maintenir la comparabilité et la cohérence entre les différents ensembles de données.
Considérations réglementaires et éthiques :
- La transparence en tant qu’impératif réglementaire : Les cartes de données répondent directement à la pression réglementaire croissante en faveur de la transparence et de l’explicabilité dans l’apprentissage automatique, aidant ainsi les organisations à se conformer aux exigences de conformité.
- Équité et atténuation des biais : En capturant des détails sur les attributs humains sensibles et les biais potentiels, les cartes de données contribuent au développement de systèmes d’IA plus justes et plus équitables.
Comment la méthodologie de développement des fiches de données a-t-elle été établie ?
La méthodologie de développement des fiches de données est issue d’un processus itératif de 24 mois, s’appuyant sur la conception centrée sur l’humain, la conception participative et les méthodes d’interaction homme-machine.
Les principales étapes du processus de développement comprenaient :
- Collaborer avec les équipes de données et d’apprentissage automatique au sein d’une grande entreprise technologique pour créer et affiner les fiches de données. Cela impliquait de travailler avec 12 équipes pour produire 22 fiches de données couvrant diverses modalités de données (image, langage, tableau, vidéo, audio et relationnel).
- Observer les flux de travail de documentation des équipes, la collecte collaborative d’informations, les demandes d’informations des parties prenantes et les processus d’examen.
- Évaluer les projets de fiches de données dans des groupes de discussion externes avec divers participants (UX, recherche HCI, politique, conception de produits, universitaires, droit) afin d’identifier une définition de travail et des valeurs de transparence.
- Consolider les questions récurrentes dans un modèle canonique documentant 31 aspects différents des ensembles de données, avec des questions spécifiques à la modalité sous forme de blocs pouvant être ajoutés.
- Mener une enquête MaxDiff (n = 191) pour comprendre l’importance relative des thèmes documentés et la façon dont ils varient selon la modalité de données et la fonction professionnelle.
- Recruter 30 experts au sein de l’entreprise pour participer à des activités qui ont permis de saisir leurs cas d’utilisation, leurs besoins en information et leurs stratégies d’évaluation des artefacts de transparence.
- Développer une approche structurée d’atelier participatif, mise à l’essai ultérieurement en code source ouvert, pour engager les parties prenantes interfonctionnelles dans la création d’un schéma de métadonnées transparent.
Principaux aperçus ayant façonné le développement des fiches de données :
- Opacité de la documentation : les participants ont perçu que les artefacts de transparence existants étaient souvent trop techniques, denses et présomptueux pour les parties prenantes non techniques.
- Subjectivité de la transparence : la transparence était perçue comme subjective, spécifique à l’auditoire et contextuelle.
- Besoin d’une compréhension commune : les parties prenantes ont besoin d’un modèle mental et d’un vocabulaire communs pour décrire le système efficacement.
Typologie des parties prenantes
L’initiative a permis d’identifier trois groupes de parties prenantes principaux dans le cycle de vie d’un ensemble de données :
- Producteurs : créateurs en amont de l’ensemble de données et de la documentation, responsables de la collecte, de la propriété, du lancement et de la maintenance.
- Agents : parties prenantes qui lisent les rapports de transparence et ont le pouvoir de déterminer comment les ensembles de données sont utilisés (y compris les réviseurs et les experts en la matière non techniques).
- Utilisateurs : personnes qui interagissent avec des produits s’appuyant sur des modèles formés sur l’ensemble de données (nécessitant des explications distinctes, plus intégrées au produit).
Objectifs des fiches de données
Sur la base de l’analyse des parties prenantes et des études d’utilisabilité, plusieurs objectifs ont été définis pour les fiches de données :
- Cohérent : assurer la comparabilité entre les différentes modalités et domaines de données, permettant une interprétation et une validation faciles.
- Exhaustive : intégration de la création de fiches de données dans le cycle de vie des ensembles de données, en répartissant la responsabilité entre les personnes appropriées.
- Intelligible et concise : communiquer efficacement aux lecteurs ayant différents niveaux de compétence, en évitant la surcharge d’informations.
- Explicabilité, incertitude : communiquer les facettes connues et inconnues de l’ensemble de données, en renforçant la confiance grâce à la transparence concernant les incertitudes.
Cadre OFTEn
Le cadre OFTEn a été introduit comme un outil conceptuel permettant de déterminer logiquement comment un sujet (par exemple, le consentement) imprègne toutes les parties d’une fiche de données et ses étapes.
- Origines
- Faits
- Transformations
- Expérience
- Exemple de n = 1
Ce cadre pourrait être utilisé de manière inductive (formuler des questions) et déductive (évaluer la représentation). En fin de compte, l’objectif était de faciliter de manière préemptive la découverte d’informations et d’assurer la qualité des données et des processus simples.
french
Quels sont les principaux objectifs que les Cartes de Données visent à atteindre ?
Les Cartes de Données sont conçues avec plusieurs objectifs principaux en tête, notamment la réduction des écarts de connaissances et la promotion de la transparence entre les différentes parties prenantes.
Objectifs clés des Cartes de Données :
-
Cohérence : Les Cartes de Données sont conçues pour être comparables entre différents ensembles de données, quels que soient leur modalité ou leur domaine. Cela garantit que les affirmations qu’elles contiennent sont facilement interprétables et vérifiables dans le contexte de leur utilisation.
-
Exhaustivité : Ces cartes devraient idéalement être créées en même temps que l’ensemble de données lui-même, et non après coup. La responsabilité de compléter les différentes sections devrait être répartie entre les personnes les plus appropriées tout au long du cycle de vie de l’ensemble de données. L’objectif est une méthode standardisée qui s’étend au-delà de la Carte de Données, englobant divers rapports connexes.
-
Intelligibilité et Concision : Les Cartes de Données doivent s’adresser à des lecteurs ayant des niveaux de compétence différents. Les informations présentées doivent être facilement comprises par ceux qui ont le moins d’expérience, tout en permettant aux utilisateurs plus compétents d’accéder aux détails supplémentaires si nécessaire. Cet équilibre garantit que le contenu fait progresser la délibération du lecteur sans le submerger, conduisant à la coopération des parties prenantes pour former une compréhension commune de l’ensemble de données.
-
Explicabilité de l’Incertitude : Souligner ce qui *n’est pas* connu sur un ensemble de données est tout aussi crucial que de documenter les facettes connues. Des descriptions claires et des justifications de l’incertitude permettent de prendre des mesures supplémentaires pour atténuer les risques, conduisant ainsi à des modèles plus justes et plus équitables. Une communication transparente de l’incertitude renforce la confiance dans les données et leurs éditeurs.
En bref, les Cartes de Données trouvent un équilibre pour fournir des informations précieuses et exploitables, tout en reconnaissant honnêtement les limites et les incertitudes. Cela favorise une prise de décision plus éclairée et promeut des pratiques d’IA responsables.
french
Quels sont les principes fondamentaux qui guident la conception des Cartes de Données ?
Les Cartes de Données sont des résumés structurés essentiels pour le développement responsable de l’IA, conçus pour fournir aux parties prenantes des informations essentielles sur les ensembles de données ML tout au long de leur cycle de vie. Ces résumés offrent un aperçu des processus et des justifications qui influencent les données, y compris leurs origines, les méthodes de collecte, les approches d’entraînement/d’évaluation, l’utilisation prévue et les décisions affectant les performances du modèle.
Plusieurs principes directeurs garantissent que les Cartes de Données sont efficaces et adaptables :
- Flexibilité : Elles doivent s’adapter à un large éventail d’ensembles de données, qu’ils soient dynamiques ou statiques, issus de sources uniques ou multiples, et gérer diverses modalités.
- Modularité : La documentation est organisée en unités autonomes et répétables, chacune fournissant une description complète d’un aspect spécifique de l’ensemble de données.
- Extensibilité : Les composants sont facilement reconfigurés ou étendus pour de nouveaux ensembles de données, analyses et plateformes.
- Accessibilité : Le contenu est présenté à plusieurs niveaux de granularité, permettant aux utilisateurs de localiser et de parcourir efficacement des descriptions détaillées de l’ensemble de données.
- Agnosticisme du contenu : Elles prennent en charge divers types de médias, notamment les sélections à choix multiples, les entrées de forme longue, le texte, les visualisations, les images, les blocs de code, les tableaux et les éléments interactifs.
Pour promouvoir l’accessibilité et faciliter l’exploration progressive du contenu, les Cartes de Données utilisent un cadre de questions socratiques appelé SCOPES qui comprend :
- Télescopes : Fournir un aperçu des attributs universels de l’ensemble de données applicables à plusieurs ensembles de données.
- Périscopes : Offrir des détails plus techniques spécifiques à l’ensemble de données, ajoutant des nuances aux télescopes et fournissant des informations opérationnelles.
- Microscopes : Présenter des détails précis sur les processus humains, les décisions, les hypothèses et les politiques non observables qui façonnent l’ensemble de données.
Le cadre OFTEn est également utilisé comme un outil pour examiner logiquement un sujet dans toutes les parties d’une Carte de Données :
- Origines : Activités de planification, définition des exigences, décisions de conception, méthodes de collecte/approvisionnement et politiques.
- Faits : Attributs statistiques décrivant l’ensemble de données, les écarts par rapport au plan initial et toute analyse préalable au nettoyage.
- Transformations : Opérations transformant les données brutes en une forme utilisable, y compris les politiques d’étiquetage et l’ingénierie des caractéristiques.
- Expérience : Analyse comparative, déploiement, tâches spécifiques, analyses d’entraînement et comparaisons avec des ensembles de données similaires.
- N=1 (exemples) : Exemples transformés dans l’ensemble de données, y compris des exemples typiques, atypiques et générant des erreurs.
Objectifs clés pour les Cartes de Données
Les études d’utilisabilité ont permis de dégager plusieurs objectifs pour une adoption réussie des Cartes de Données :
- Cohérence : Les Cartes de Données doivent être comparables entre les modalités et les domaines, garantissant que les affirmations sont faciles à interpréter et à valider.
- Exhaustivité : La création doit avoir lieu simultanément avec le cycle de vie de l’ensemble de données, avec des responsabilités réparties entre les personnes appropriées.
- Intelligibilité et concision : La communication doit être efficace pour les lecteurs ayant différents niveaux de compétence, encourageant la coopération et une compréhension commune.
- Explicabilité et incertitude : La communication de l’incertitude est cruciale, renforçant la confiance et permettant d’atténuer les risques pour des modèles plus équitables et plus justes.
Caractéristiques de la transparence
La transparence dans les Cartes de Données est caractérisée par :
- L’équilibre entre la divulgation et l’évitement d’une vulnérabilité excessive pour les créateurs.
- L’examen minutieux des informations incluses.
- La disponibilité à plusieurs niveaux, même si elle n’est pas toujours nécessaire.
- La possibilité d’une évaluation par des tiers.
- Les interprétations subjectives entre les parties prenantes.
- La capacité à susciter la confiance des consommateurs et des utilisateurs de données.
- La réduction des asymétries de connaissances.
- La réflexion des valeurs humaines par le biais de divulgations à la fois techniques et non techniques.
Typologie des parties prenantes
En général, il existe trois groupes de parties prenantes clés :
- Producteurs : Créateurs en amont de l’ensemble de données et de sa documentation.
- Agents : Parties prenantes qui lisent les rapports de transparence.
- Utilisateurs : Personnes interagissant avec des produits s’appuyant sur des modèles entraînés sur l’ensemble de données.
Dimensions d’évaluation
Les Cartes de Données doivent être évaluées selon les dimensions suivantes :
-
Responsabilité : Démontre l’appropriation, le raisonnement, la réflexion et la prise de décision systématique.
-
Utilité ou utilisation : Fournit des détails qui répondent aux besoins de la prise de décision responsable des lecteurs afin d’établir la pertinence des ensembles de données pour leurs tâches et leurs objectifs.
-
Qualité : Résume la rigueur, l’intégrité et l’exhaustivité de l’ensemble de données.
-
Impact ou conséquences de l’utilisation : Établit des attentes concernant les résultats positifs et négatifs ainsi que les conséquences ultérieures.
-
Risque et recommandations : Informe les lecteurs des risques et des limitations potentiels connus.
french
Comment les cartes de données sont-elles structurées pour faciliter une présentation et une navigation efficaces de l’information ?
Les cartes de données emploient une approche structurée de la documentation des ensembles de données, mettant l’accent sur l’accessibilité et la facilité d’utilisation pour les parties prenantes ayant des niveaux d’expertise technique variables. L’objectif est de fournir une voie claire pour comprendre les caractéristiques cruciales des ensembles de données, favorisant ainsi un développement responsable de l’IA.
Composantes structurelles clés
- Blocs : Les cartes de données sont construites à partir d’unités modulaires appelées « blocs ». Chaque bloc se concentre sur un aspect spécifique de l’ensemble de données, contenant un titre, une question incitative et un espace de saisie pour les réponses. Ces réponses peuvent être du texte de longue ou courte forme, des réponses à choix multiples, des tableaux, des nombres, des blocs de code, des visualisations de données ou des liens.
- Agencement thématique : Les blocs sont agencés de manière thématique et hiérarchique au sein d’une structure de grille. Les questions connexes sont regroupées en rangées, et les rangées sont empilées pour créer des sections avec des titres descriptifs significatifs.
- Granularité et directionnalité : Les réponses au sein des sections augmentent généralement en détails et en spécificité à travers les colonnes. Cette structure permet aux lecteurs de trouver des informations au niveau de fidélité approprié pour leurs tâches et leurs décisions.
La structure prend en charge une approche « aperçu d’abord, zoom et filtre, détails sur demande ». Cela permet aux lecteurs de saisir rapidement les informations clés, puis d’approfondir si nécessaire.
Cadre de questionnement socratique :
Pour faciliter l’exploration et l’adaptation, les cartes de données utilisent le « Cadre de questionnement socratique » avec trois niveaux qui favorisent de multiples niveaux d’abstraction. Cela comprend des champs d’application caractérisés comme des télescopes, des périscopes et des microscopes :
- Télescopes : Fournissent un aperçu général, abordant les attributs universels applicables à plusieurs ensembles de données. Ces questions aident à la gestion des connaissances, à l’indexation, au filtrage et à l’introduction d’une logique conditionnelle.
- Périscopes : Offrent des détails techniques plus importants, en se concentrant sur les attributs spécifiques à l’ensemble de données. Cette couche comprend généralement des résumés statistiques, des métadonnées opérationnelles, qui peuvent être automatisées, car les périscopes décrivent souvent les résultats de l’analyse.
- Microscopes : Sollicitent des détails précis sur les processus humains, les décisions, les hypothèses et les politiques qui ont façonné l’ensemble de données. Ces questions sont difficiles à automatiser et nécessitent des explications détaillées.
Le cadre permet aux parties prenantes ayant une expertise variable d’explorer progressivement le contenu sans compromettre l’intégrité de la carte de données.
Le cadre OFTEn : Structurer le contenu tout au long du cycle de vie de l’ensemble de données
Le cadre OFTEn est un outil conceptuel permettant d’identifier et d’ajouter des thèmes à partir du cycle de vie d’un ensemble de données. Il prend en compte la manière dont un sujet peut se propager dans toutes les parties d’une carte de données :
OFTEn est un acronyme représentant les étapes du cycle de vie d’un ensemble de données :
- Origines (Origins)
- Faits (Factuals)
- Transformations
- Expérience (Experience)
- Exemple N=1 (N=1 Example)
Ce cadre permet de s’assurer que tous les aspects d’un sujet, comme le consentement, sont traités de manière approfondie tout au long du cycle de vie de l’ensemble de données.
Comment le cadre de questions socratiques est-il appliqué au sein des cartes de données, et pourquoi est-ce important ?
Les cartes de données utilisent un cadre structuré de questions socratiques pour garantir l’accessibilité et permettre aux utilisateurs ayant différents niveaux d’expertise d’explorer progressivement le contenu de l’ensemble de données. Le cadre aborde les défis courants liés à l’adaptation des modèles de cartes de données pour de nouveaux ensembles de données en organisant les questions en trois granularités :
- Télescopes : Ces questions fournissent une vue d’ensemble de haut niveau applicable à plusieurs ensembles de données. Par exemple, « Cet ensemble de données contient-il des attributs humains sensibles ? » Les télescopes prennent en charge la gestion des connaissances en générant des énumérations et des balises, en définissant le contexte pour de plus amples informations et en rationalisant le processus de remplissage des cartes de données grâce à une logique conditionnelle.
- Périscopes : Ils approfondissent les attributs spécifiques à l’ensemble de données, ajoutant des nuances aux télescopes. Un exemple : « Pour chaque attribut humain sélectionné, précisez si ces informations ont été collectées intentionnellement dans le cadre du processus de création de l’ensemble de données, ou involontairement. » Les périscopes demandent souvent des détails opérationnels tels que la forme, la taille, les sources et les intentions de l’ensemble de données, exploitant fréquemment l’automatisation pour obtenir des résumés statistiques et des métadonnées précis.
- Microscopes : Ils examinent les éléments humains « inobservables » : les décisions, les hypothèses et les politiques qui façonnent l’ensemble de données. Un exemple est le suivant : « Décrivez brièvement la motivation, la justification, les considérations ou les approches qui ont conduit cet ensemble de données à inclure les attributs humains indiqués. Résumez pourquoi ou comment cela pourrait affecter l’utilisation de l’ensemble de données. » Ces questions suscitent des explications et des résumés détaillés des processus, nécessitant souvent du texte long, des listes, des tableaux de données et des visualisations.
La présence et l’équilibre de ces niveaux d’abstraction influencent considérablement l’interprétation des cartes de données. Bien que les questions télescopiques soient les plus faciles à répondre, leur utilité est limitée. Les questions périscopiques facilitent l’évaluation rapide de l’adéquation, tandis que répondre aux questions microscopiques est crucial, mais plus difficile pour articuler les connaissances implicites. Ensemble, ces couches permettent aux lecteurs de naviguer dans des détails granulaires sans perdre le contexte général.
L’importance de ce cadre socratique réside dans sa capacité à favoriser une compréhension commune des ensembles de données. Cette approche garantit une amélioration continue de la création d’ensembles de données, promouvant des modèles plus justes et plus équitables tout en renforçant la confiance. Au fur et à mesure que les parties prenantes s’engagent progressivement avec les cartes de données, l’objectif est d’obtenir une explication claire et facilement compréhensible de ce *qu’est* un ensemble de données, de ce qu’il *fait* et de *pourquoi* il fonctionne de la manière dont il le fait : un élément essentiel pour le développement responsable de l’IA et la prise de décision éclairée au sein d’équipes diverses.
Quels sont les thèmes de contenu clés inclus dans le modèle de fiche de données ?
Les fiches de données sont des résumés structurés conçus pour fournir des faits essentiels sur les ensembles de données d’apprentissage automatique. Ces faits sont essentiels pour les parties prenantes tout au long du cycle de vie d’un ensemble de données, soutenant un développement responsable de l’IA.
Catégories d’informations de base :
- Provenance de l’ensemble de données : Détails sur les origines de l’ensemble de données, y compris les sources en amont, les méthodes de collecte de données (inclusion, exclusion, filtrage) et les mises à jour.
- Caractéristiques de l’ensemble de données : Répartition complète des caractéristiques de l’ensemble de données, des attributs manquants potentiels, de la nature des données (modalité, domaine, format).
- Traitement des données : Comment les données ont été nettoyées, analysées, traitées, évaluées, étiquetées et validées.
- Utilisation et performances : Utilisation antérieure et performances associées de l’ensemble de données (par exemple, modèles entraînés), politiques d’arbitrage.
- Conformité réglementaire : Politiques réglementaires ou de conformité associées à l’ensemble de données (RGPD, licences).
- Infrastructure : Informations sur l’infrastructure de l’ensemble de données et la mise en œuvre du pipeline.
- Statistiques et modèles : Statistiques descriptives, modèles connus (corrélations, biais, asymétries).
- Représentation socioculturelle : Représentation socioculturelle, géopolitique ou économique au sein de l’ensemble de données.
- Équité : Évaluations et considérations liées à l’équité.
- Termes techniques : Définitions et explications des termes techniques utilisés dans la documentation de l’ensemble de données.
Thèmes de contenu clés :
Selon la recherche, un modèle de fiche de données canonique documente 31 aspects différents des ensembles de données, couvrant un large éventail de thèmes généralisables. Ces thèmes incluent :
- Informations sur les éditeurs de l’ensemble de données et comment les contacter.
- Les sources de financement qui ont soutenu la création de l’ensemble de données.
- Restrictions d’accès et politiques régissant l’ensemble de données.
- Politiques d’effacement et de conservation des données.
- Mises à jour, versions, actualisations et ajouts à l’ensemble de données.
- Répartition détaillée des caractéristiques de l’ensemble de données.
- Identification des attributs ou de la documentation manquants.
- Informations sur les sources de données en amont d’origine.
- La nature de l’ensemble de données, y compris la modalité, le domaine et le format des données.
- Exemples de points de données typiques et aberrants.
- Explications et motivations pour la création de l’ensemble de données.
- Applications prévues de l’ensemble de données.
- Discussion des considérations de sécurité lors de l’utilisation de l’ensemble de données.
- État de la maintenance et informations sur la version.
- Différences par rapport aux versions précédentes.
- Comment les données ont été collectées, nettoyées et traitées.
- Processus d’évaluation, d’étiquetage et de validation des données.
- Performances antérieures de l’ensemble de données.
- Tout modèle connu au sein de l’ensemble de données.
Cadre OFTEn :
Le cadre OFTEn est utilisé pour examiner comment un sujet imprègne les fiches de données. OFTEn est un acronyme qui représente les étapes suivantes du cycle de vie de l’ensemble de données :
- Origines
- Faits
- Transformations
- Expérience
- Exemple N=1
Cadres de construction :
L’article propose trois cadres pour la construction de fiches de données :
- Organisation de l’information
- Cadrage des questions
- Évaluation des réponses
Comment le cadre OFTEn peut-il être utilisé pour développer et évaluer des cartes de données ?
Le cadre OFTEn est essentiel pour créer des cartes de données robustes et transparentes pour les ensembles de données d’IA. Il fournit une manière structurée d’examiner comment divers sujets imprègnent toutes les étapes du cycle de vie d’une carte de données. OFTEn, qui signifie Origines, Faits, Transformations, Expérience et exemple n=1, peut être appliqué inductivement et déductivement pour garantir la transparence dans la documentation des ensembles de données.
Comprendre les étapes d’OFTEn
- Origines : Se concentre sur les activités de planification, les décisions de conception, les méthodes de collecte et les politiques qui dictent les résultats de l’ensemble de données. Les thèmes clés incluent la paternité, les motivations, les applications prévues et la licence.
- Faits : Se concentre sur les attributs statistiques décrivant l’ensemble de données et toute déviation par rapport au plan original, y compris l’analyse de pré-préparation. Les thèmes ici englobent le nombre d’instances, les caractéristiques, les étiquettes et les descriptions des caractéristiques.
- Transformations : Englobe les opérations telles que le filtrage, la validation, l’analyse, le formatage et le nettoyage des données brutes, y compris les politiques d’étiquetage ou d’annotation et l’ingénierie des caractéristiques.
- Expérience : Examine comment l’ensemble de données est comparé ou déployé dans des environnements expérimentaux, de production ou de recherche. Les thèmes ici incluent les performances attendues, les performances inattendues, les mises en garde et les cas d’utilisation étendus.
- N=1 (exemples) : Fournit des exemples concrets et des ensembles de données transformés, y compris des cas typiques ou aberrants, et des liens vers des artefacts pertinents. Cette étape se concentre sur la fourniture d’illustrations pratiques pour compléter les descriptions plus abstraites des autres étapes.
Application inductive : OFTEn facilite les activités avec les agents pour formuler des questions sur les ensembles de données et les modèles pertinents à la prise de décision. Il peut être visualisé comme une matrice avec des lignes représentant le cycle de vie de l’ensemble de données et des colonnes incitant à l’encadrement des questions (« qui, quoi, quand, où, pourquoi et comment ») sur un sujet tout au long du cycle de vie.
Application déductive : OFTEn aide à évaluer si une carte de données représente avec précision l’ensemble de données. L’utilisation du cadre entraîne des effets formatifs à la fois sur la documentation et sur l’ensemble de données lui-même.
Les cartes de données qui reflètent clairement une structure OFTEn sous-jacente sont également plus faciles à développer et à mettre à jour, capturant des informations au fil du temps telles que les commentaires des agents en aval, les différences entre les versions et les audits. Par exemple, lors de la prise en compte du consentement des données, OFTEn aide à générer des questions critiques tout au long du cycle de vie de l’ensemble de données :
- Qui était responsable de la définition des conditions de consentement ?
- Quelles manipulations des données sont autorisées en vertu du consentement donné ?
- Quand le consentement peut-il être révoqué ?
- Où les conditions de consentement sont-elles applicables ?
- Pourquoi des conditions de consentement spécifiques ont-elles été choisies ?
En répondant à ces questions à travers les étapes Origines, Faits, Transformations, Expérience et exemple n=1, les intendants de données peuvent découvrir de manière préemptive des informations pour une meilleure création d’ensembles de données.
Comment les fiches de données sont-elles évaluées, et quelles dimensions sont utilisées pour évaluer leur utilité ?
Les fiches de données sont évaluées en utilisant plusieurs dimensions afin d’évaluer leur utilité pour les parties prenantes. Ces dimensions fournissent des informations qualitatives sur la cohérence, l’exhaustivité, l’utilité et la lisibilité des modèles de fiches de données et des fiches de données complétées.
Dimensions clés de l’évaluation :
- Responsabilité : La fiche de données démontre-t-elle une appropriation, une réflexion, un raisonnement et une prise de décision systématique adéquats de la part des producteurs de l’ensemble de données ? Cela évalue le niveau de responsabilité et de réflexion derrière la création et la documentation de l’ensemble de données.
- Utilité ou utilisation : La fiche de données fournit-elle des détails qui répondent aux besoins du processus de prise de décision responsable des lecteurs, afin d’établir la pertinence des ensembles de données pour leurs tâches et leurs objectifs ? Cela met l’accent sur le fait que la fiche de données aide ou non les utilisateurs à déterminer si l’ensemble de données est approprié pour les applications prévues.
- Qualité : La fiche de données résume-t-elle la rigueur, l’intégrité et l’exhaustivité de l’ensemble de données, communiqués d’une manière accessible et compréhensible pour de nombreux lecteurs ? Cette dimension évalue l’exhaustivité et l’exactitude des informations fournies.
- Impact ou conséquences de l’utilisation : La fiche de données définit-elle des attentes quant aux résultats positifs et négatifs, ainsi qu’aux conséquences ultérieures de l’utilisation ou de la gestion de l’ensemble de données dans des contextes appropriés ? Ici, l’objectif est d’exposer de manière préventive les impacts potentiels, tant bénéfiques que préjudiciables.
- Risques et recommandations : La fiche de données sensibilise-t-elle les lecteurs aux risques et limitations potentiels connus, découlant de la provenance, de la représentation, de l’utilisation ou du contexte d’utilisation ? Fournit-elle suffisamment d’informations et d’alternatives pour aider les lecteurs à faire des compromis responsables ? C’est sans doute le point central de la conformité, car une communication appropriée des risques est primordiale.
Pour tester ces dimensions, des évaluateurs experts de divers domaines et niveaux de maîtrise des données évaluent les fiches de données. Ils évaluent indépendamment chaque dimension en utilisant une échelle (par exemple, Médiocre, Limite, Moyenne, Bon, Exceptionnel) et fournissent des preuves pour étayer leurs évaluations, ainsi que des mesures concrètes pour que les producteurs améliorent la fiche de données.
Les évaluateurs experts signalent souvent des opportunités d’améliorer directement l’ensemble de données, et pas seulement la fiche de données. Par exemple, l’ambiguïté des pratiques d’étiquetage révélée lors de l’examen peut entraîner des révisions de l’ensemble de données et une documentation plus claire.
Quel était l’objectif de la création d’une fiche de données pour un ensemble de données de vision par ordinateur axé sur la recherche en matière d’équité ?
L’objectif principal de la création d’une fiche de données pour un ensemble de données de vision par ordinateur axé sur la recherche en matière d’équité était de fournir un aperçu clair et concis des caractéristiques, des limitations et des utilisations acceptables de l’ensemble de données. Cela a été perçu comme un moyen efficace de communiquer ces informations aux évaluateurs internes en matière d’éthique et aux publics externes.
Principaux objectifs de la fiche de données de l’ensemble de données de vision par ordinateur :
- Transparence et communication : Articuler clairement les attributs de l’ensemble de données, en particulier les attributs sensibles tels que le sexe perçu et la tranche d’âge, et définir les attentes concernant l’application appropriée et responsable des données.
- Atténuation des risques : Aborder les risques potentiels découlant de l’utilisation d’étiquettes sensibles tout en soulignant les avantages sociétaux de l’utilisation de l’ensemble de données pour l’analyse de l’équité et l’atténuation des biais.
- Alignement des parties prenantes : Faciliter une compréhension commune entre les diverses parties prenantes (auteurs de l’ensemble de données, évaluateurs internes, utilisateurs externes) concernant les nuances et les considérations éthiques de l’ensemble de données.
- Organisation des connaissances : Consolider les informations distribuées sur le cycle de vie de l’ensemble de données dans un format lisible et reproductible, utilisable sur plusieurs ensembles de données.
Implications pratiques et perspectives :
- Révélation des lacunes de perception : Le processus de création de la fiche de données a mis en évidence les différences de perception entre les experts, incitant à des études plus approfondies des critères d’étiquetage et des caractéristiques des données (par exemple, la signification des valeurs « inconnu » pour la tranche d’âge perçue).
- Amélioration itérative : Les commentaires des évaluateurs ont conduit à des améliorations de la fiche de données, telles qu’une section personnalisée sur les boîtes englobantes et l’ajout de visualisations de soutien. Cela a également stimulé l’itération sur les champs de la fiche de données pour les futurs ensembles de données de vision par ordinateur.
- Utilisabilité : Les commentaires étaient axés sur la découverte des besoins en informations des agents pour des conclusions acceptables concernant la responsabilité, les risques et les recommandations, les utilisations, les conséquences et la qualité de l’ensemble de données.
- Impact en aval : La fiche de données a aidé les agents en aval à la trouver utile et a recherché des modèles pour leur propre usage.
Quel était l’objectif de la création d’une fiche de données pour un ensemble de données de traduction linguistique géographiquement diversifié ?
L’objectif principal était de traiter les biais et les hypothèses dans les modèles de traduction linguistique liés à la diversité géographique. Une équipe a découvert que certains modèles associaient des noms à des genres spécifiques, et que les ensembles de données d’entraînement précédents manquaient de représentation suffisante des noms provenant de diverses zones géographiques. La fiche de données a été créée pour :
- Communiquer la portée limitée de la diversité géographique atteinte dans l’ensemble de données.
- Expliquer comment le genre a été déduit des descriptions d’entités, reconnaître les problèmes potentiels liés à cette approche.
- Empêcher une utilisation inappropriée de l’ensemble de données en soulignant ses limites.
Essentiellement, la fiche de données servait de mécanisme de transparence pour informer les utilisateurs des choix de conception de l’ensemble de données, des biais potentiels et des consignes d’utilisation sûre, même pour les utilisateurs sans expertise technique approfondie.
Implications réglementaires et de conformité
Bien que non explicitement mandatée, la fiche de données abordait implicitement les préoccupations réglementaires potentielles concernant l’équité et les biais, qui sont de plus en plus examinés dans le cadre des cadres émergents de gouvernance de l’IA. En documentant les limites et les biais potentiels de l’ensemble de données, l’équipe visait à se conformer à l’« esprit » des réglementations en matière d’équité, en veillant à ce que les utilisateurs soient conscients des résultats discriminatoires potentiels et puissent prendre des mesures d’atténuation.
Avantages pratiques et leçons apprises
Le processus de création lui-même a offert des perspectives précieuses allant bien au-delà de la conformité :
- Amélioration de la communication : la fiche de données a facilité des discussions plus claires avec les parties prenantes, permettant une compréhension commune des limites et des hypothèses de l’ensemble de données.
- Conception améliorée de l’ensemble de données : le processus a incité l’équipe à réévaluer ses décisions de conception, ce qui a conduit à un ensemble de données plus fondé et intentionnel.
- Boucle de rétroaction précoce : les commentaires des parties prenantes pendant le processus de création de la fiche de données ont révélé des problèmes qui, idéalement, auraient dû être résolus lors de la conception initiale de l’ensemble de données. L’expérience a souligné l’importance d’intégrer la création de la fiche de données *tôt* dans le cycle de vie de l’ensemble de données.
La fiche de données a servi non seulement de documentation, mais aussi d’outil d’autoréflexion critique et d’amélioration de la collaboration, menant finalement à un processus de développement de l’IA plus responsable.
Quelles sont certaines des expériences et résultats observés à partir des études de cas impliquant les Data Cards ?
Les Data Cards émergent comme un outil essentiel pour favoriser la transparence et la responsabilité dans le développement de l’IA. Les études de cas révèlent un éventail d’expériences et de résultats, soulignant à la fois leur potentiel et les défis liés à leur mise en œuvre.
Principaux enseignements des études de cas
- Transparence accrue : Les Data Cards fournissent un résumé structuré des faits essentiels du jeu de données, ce qui est vital pour une prise de décision éclairée tout au long du cycle de vie d’un jeu de données. Elles expliquent les processus et les justifications qui façonnent les données et, par conséquent, les modèles formés sur celles-ci.
- Conception améliorée des jeux de données : La création de Data Cards a incité les équipes à reconsidérer les décisions de conception, conduisant à des jeux de données plus rigoureux et intentionnels. Par exemple, l’exercice a révélé la nécessité d’une compréhension plus claire des lexiques d’étiquetage au sein des équipes.
- Communication facilitée : Les Data Cards ont permis des discussions plus claires entre les parties prenantes ayant différents niveaux d’expertise technique. L’accord sur des définitions, telles que le « genre perçu », est devenu plus simple.
- Retour d’information précoce sur les pratiques d’IA responsable : Les Data Cards facilitent le retour d’information précoce des experts et des non-experts, influençant la conception et les analyses des données.
Préoccupations réglementaires et implications pratiques
Les préoccupations concernant la transparence dans l’apprentissage automatique influencent le contrôle réglementaire. Les Data Cards offrent un mécanisme standardisé et pratique pour la transparence, mais leur création nécessite une planification minutieuse :
- Mise en œuvre proactive : Les études de cas ont démontré que la création de Data Cards en tant qu’étape finale augmentait la charge de travail perçue. L’intégration de leur création dans le processus de développement du jeu de données a amélioré la pertinence et la lisibilité.
- Vocabulaire de l’incertitude : Les équipes développant plusieurs Data Cards ont commencé à développer une compréhension plus riche qui peut être utilisée pour développer un vocabulaire de l’IA afin d’exprimer l’incertitude, d’une manière claire à interpréter. Cela permet aux producteurs d’exprimer clairement leurs préoccupations concernant les données.
- Objets frontières : Les Data Cards fonctionnent comme des « objets frontières », permettant à diverses parties prenantes (data scientists, chefs de produit, analystes politiques) de les utiliser pour diverses tâches telles que les audits, l’évaluation des jeux de données et le suivi de l’adoption au sein de plusieurs groupes.
Comment les fiches de données (Data Cards) fonctionnent-elles comme objets frontières dans le contexte de l’IA responsable ?
Les fiches de données sont conçues comme des objets frontières, favorisant une prise de décision éclairée concernant les données utilisées pour la construction et l’évaluation des modèles d’apprentissage automatique (ML) dans les produits, les politiques et la recherche. Elles agissent comme des résumés structurés des faits essentiels sur les ensembles de données ML, nécessaires aux parties prenantes tout au long du cycle de vie d’un ensemble de données pour le développement d’une IA responsable.
Leur fonction principale est de combler le fossé entre les diverses parties prenantes, notamment :
- Producteurs : Créateurs en amont de l’ensemble de données et de sa documentation, responsables de la collecte, du lancement et de la maintenance.
- Agents : Ceux qui lisent les rapports de transparence et ont le pouvoir d’utiliser ou de déterminer comment les ensembles de données sont utilisés. Cela inclut les examinateurs ou les experts en la matière.
- Utilisateurs : Individus qui interagissent avec des produits s’appuyant sur des modèles entraînés sur l’ensemble de données. Les fiches de données sont principalement destinées aux agents ayant une expertise technique, et non aux utilisateurs finaux.
En fonctionnant comme des objets frontières, les fiches de données permettent à diverses personnes de :
- Contribuer des informations variées aux décisions.
- Découvrir des opportunités pour améliorer la conception des données.
- Établir un terrain d’entente entre les parties prenantes.
Les fiches de données servent également de médiateur efficace entre de multiples communautés de pratique en :
- Soutenant les examens et les audits.
- Éclairant l’utilisation dans les systèmes d’IA ou la recherche.
- Facilitant les comparaisons d’ensembles de données.
- Encourageant la reproductibilité de la recherche.
- Suivant l’adoption des ensembles de données à travers différents groupes.
Ces artefacts doivent être facilement découvrables et présentés dans un format accessible aux points clés du parcours d’un utilisateur.
En fin de compte, les fiches de données sont conçues pour incarner la flexibilité d’interprétation à travers divers groupes d’utilisateurs tout en facilitant le travail collaboratif et en soutenant la prise de décision individuelle d’une manière qui tient compte des considérations éthiques de l’IA.
Préoccupations réglementaires et impératifs de transparence
La transparence et l’explicabilité des résultats des modèles, vues à travers le prisme des ensembles de données, sont devenues une préoccupation réglementaire majeure. Les gouvernements du monde entier recherchent des mécanismes de transparence normalisés, pratiques et durables qui créent de la valeur à grande échelle.
Les fiches de données soutiennent cet objectif réglementaire en :
- Fournissant des explications claires des processus et des justifications.
- Abordant les sources en amont, la collecte de données, la formation et les utilisations prévues.
- Couvrant les décisions qui affectent la performance du modèle.
Implications pratiques
L’adoption des fiches de données a plusieurs implications pratiques :
- Communication améliorée : Discussions plus claires avec les parties prenantes sur la sélection, l’examen et la création des données.
- Qualité des données améliorée : Incitation à la réflexion sur ce qui est connu et inconnu de l’ensemble de données, les hypothèses et les limitations.
- Approche basée sur des principes : Encourager une conception d’ensemble de données plus fondée sur des principes et intentionnelle.
Les organisations cherchant à adopter les fiches de données devraient considérer :
- Normes de contenu : Normes de contenu et d’interopérabilité convenues afin de garantir que les producteurs et les agents développent des modèles mentaux équitables des ensembles de données.
- Infrastructure : Infrastructure de gestion des connaissances connectée aux pipelines de données et de modèles pour une intégration transparente des connaissances.
- Automatisation : Équilibrer les champs automatisés (pour la précision) avec les explications écrites par des humains (pour le contexte et la justification).
Quelles sont les considérations qui favorisent l’adoption des Fiches de données ?
Les Fiches de données visent à encourager une documentation transparente, pertinente et centrée sur l’humain des ensembles de données dans les contextes pratiques de l’industrie et de la recherche, contribuant ainsi au développement responsable de l’IA. Plusieurs considérations peuvent favoriser leur adoption, en se concentrant sur l’utilité, la centralité humaine et la prise en compte des contraintes du monde réel.
Principales caractéristiques souhaitables :
- Cohérence : Les Fiches de données doivent être comparables entre les modalités et les domaines, garantissant que les affirmations sont facilement interprétables et valides dans leur contexte. Il est essentiel de préserver la comparabilité lors de la mise à l’échelle.
- Exhaustivité : La création de Fiches de données doit idéalement se faire simultanément à la création de l’ensemble de données, en répartissant la responsabilité de l’achèvement. Cela nécessite des méthodes normalisées allant au-delà de la Fiche de données elle-même.
- Intelligibilité et concision : Les Fiches de données doivent communiquer efficacement avec des lecteurs de différents niveaux de compétence. Le contenu et la conception doivent faire progresser la délibération sans submerger, favorisant la coopération vers un modèle mental partagé.
- Explicabilité et incertitude : Il est essentiel de communiquer l’incertitude avec les métadonnées. Des descriptions et des justifications claires de l’incertitude peuvent inciter à des mesures d’atténuation, conduisant à des modèles plus justes et plus équitables.
Principes clés pour la conception et la mise en œuvre :
- Flexibilité : Les Fiches de données doivent décrire un large éventail d’ensembles de données, qu’ils soient dynamiques ou statiques, à source unique ou multiple, ou multimodaux.
- Modularité : La documentation doit être organisée en unités autonomes et reproductibles fournissant des descriptions de bout en bout des aspects d’un seul ensemble de données.
- Extensibilité : Les composants doivent être facilement reconfigurés ou étendus pour de nouveaux ensembles de données, analyses et plateformes.
- Accessibilité : Le contenu doit être représenté à plusieurs granularités pour une navigation efficace et des descriptions détaillées.
- Agnosticisme du contenu : Prise en charge de divers types de médias, notamment du texte, des visualisations, des images, des blocs de code et des éléments interactifs.
Surmonter les défis :
- Résoudre l’opacité : Évitez le jargon technique ; utilisez des explications en langage clair de ce qu’est quelque chose, de ce qu’il fait et de pourquoi.
- Alignement des parties prenantes : S’aligner sur une définition commune de la transparence, du public et des exigences du public.
- Facteurs organisationnels : Tenez compte des asymétries de connaissances, des processus d’incitation, de la compatibilité de l’infrastructure et de la culture de la communication.
Cadres pour une création efficace :
- Cadre OFTEn : (Origines, Faits, Transformations, Expérience, n=1 exemple) – permet une prise en compte systématique d’un sujet dans toutes les parties d’une Fiche de données.
- Cadre de questions socratiques : Utilisez des télescopes (aperçus), des périscopes (détails techniques) et des microscopes (détails précis) pour explorer progressivement le contenu sur plusieurs niveaux d’abstraction.
Évaluation et dimensions pour l’évaluation des Fiches de données :
- Responsabilité : Démontre la propriété, le raisonnement et la prise de décision systématique.
- Utilité ou utilisation : Satisfait les besoins de prise de décision responsable concernant l’adéquation de l’ensemble de données.
- Qualité : Communique la rigueur, l’intégrité et l’exhaustivité d’une manière accessible.
- Impact ou conséquences de l’utilisation : Définir les attentes pour les résultats positifs et négatifs.
- Risques et recommandations : Sensibilise aux risques potentiels et fournit des informations pour des compromis responsables.
Les organisations devraient viser des Fiches de données facilement adaptables à leurs ensembles de données, leurs modèles et leurs piles technologiques. Il est essentiel de mettre en œuvre des infrastructures qui favorisent la collaboration et la co-création des parties prenantes, la liaison et le stockage d’artefacts étrangers, ainsi que l’automatisation partielle des visualisations, des tableaux et des résultats d’analyses, la liaison et le stockage des informations connexes.
L’adoption à l’échelle de l’industrie des Cartes de données pourrait être stimulée par des normes convenues en matière d’interopérabilité et de contenu qui serviraient aux producteurs et aux agents à développer des modèles mentaux plus équitables des ensembles de données.
Quels sont certains des facteurs liés à l’infrastructure et à l’automatisation qui ont un impact sur l’utilisation efficace des fiches de données ?
Dans la précipitation de la mise en œuvre des fiches de données et d’autres artefacts de transparence, les organisations doivent être conscientes des considérations infrastructurelles et d’automatisation qui peuvent avoir un impact sur leur efficacité.
Compatibilité et préparation de l’infrastructure
Le succès d’une organisation dans l’exploitation des fiches de données dépend de sa capacité à les adapter à ses ensembles de données, à ses modèles et à ses piles technologiques existantes. Cela comprend :
- S’assurer que les infrastructures de gestion des connaissances sont connectées aux pipelines de données et de modèles. Cela permet d’intégrer de nouvelles connaissances de manière transparente dans les fiches de données, en les tenants à jour moyennant une intervention manuelle minimale.
- Choisir des plateformes qui prennent en charge les formulaires interactifs (formulaires numériques, référentiels) et non interactifs (PDF, documents). Cela rend les fiches de données plus accessibles à un large éventail de parties prenantes et de cas d’utilisation.
- Adopter une conception à base de blocs qui facilite la mise en œuvre sur diverses plateformes, garantissant ainsi l’adaptabilité à différentes interfaces.
Considérations relatives à l’automatisation
Bien que l’automatisation puisse rationaliser la création et la maintenance des fiches de données, il est essentiel de trouver un équilibre. Tenez compte des facteurs suivants :
- Référentiels centralisés : mettre en œuvre des référentiels consultables qui permettent une découverte efficace des ensembles de données par les agents, répartissant ainsi la responsabilité de l’utilisation des données dans l’ensemble de l’organisation.
- Collaboration des parties prenantes : les infrastructures qui permettent la co-création collaborative de fiches de données, la liaison d’artefacts et l’automatisation partielle des visualisations sont préférées par les parties prenantes.
- Automatisation stratégique : bien que l’automatisation de champs tels que les statistiques descriptives et les résultats d’analyse améliore la précision, évitez d’automatiser les domaines nécessitant des explications contextuelles et rédigées par des humains des méthodes, des hypothèses et des décisions. Cela garantit que les connaissances implicites sont bien articulées. Selon une étude, les lecteurs ont tendance à désapprouver l’automatisation des champs dans la fiche de données lorsque les réponses contiennent des hypothèses ou des justifications qui aident à interpréter les résultats.
- Intégrité des données : l’automatisation doit garantir l’exactitude et empêcher la présentation erronée (et la légitimation subséquente) d’ensembles de données de mauvaise qualité.
En tenant soigneusement compte de l’infrastructure et de l’automatisation, les organisations peuvent maximiser l’utilité des fiches de données, améliorer la gouvernance des données et, dans l’ensemble, promouvoir un développement de l’IA plus responsable.