Tarjetas de Datos: Iluminando Conjuntos de Datos de IA para la Transparencia y el Desarrollo Responsable

La creciente ola del aprendizaje automático exige una ola correspondiente de transparencia, sin embargo, los mecanismos prácticos para lograr esto siguen siendo esquivos. Los enfoques estandarizados a menudo tienen dificultades para adaptarse a las diversas necesidades y perspectivas de las personas involucradas a lo largo del ciclo de vida de la IA. Herramientas como las Tarjetas de Datos, que proporcionan resúmenes estructurados de conjuntos de datos, ofrecen un camino prometedor hacia adelante. Estos resúmenes tienen como objetivo explicar claramente los procesos y las razones que dan forma a los datos y su influencia en los resultados del modelo, yendo más allá de lo que los datos sin procesar pueden revelar por sí solos. Esta exploración profundiza en las características esenciales que hacen que las prácticas de transparencia sean realmente efectivas cuando se aplican a conjuntos de datos de IA, centrándose en la usabilidad para productores, agentes y usuarios por igual.

¿Qué características son esenciales para fomentar la transparencia en el contexto de los conjuntos de datos de IA?

El impulso por la transparencia en los modelos de aprendizaje automático y los conjuntos de datos está ganando impulso, impulsado por la creciente atención tanto de la academia como de la industria. Los organismos reguladores de todo el mundo también están presionando para lograr una mayor transparencia. Sin embargo, los intentos de implementar mecanismos estandarizados, prácticos y sostenibles a menudo enfrentan limitaciones debido a los diversos objetivos, flujos de trabajo y antecedentes de las partes interesadas involucradas en el ciclo de vida de la IA.

Fundamental para fomentar la transparencia de los conjuntos de datos es el uso de herramientas como las «Tarjetas de Datos», resúmenes estructurados que resaltan hechos esenciales sobre los conjuntos de datos de ML. Estas tarjetas proporcionan explicaciones claras de los procesos y fundamentos que dan forma a los datos e influyen en los resultados del modelo, información que a menudo no se puede inferir directamente del conjunto de datos en sí. Complementan la documentación más extensa, como las Tarjetas de Modelo y las Declaraciones de Datos.

Las Tarjetas de Datos ayudan a construir consenso de múltiples maneras:

  • Están diseñadas como «objetos límite»: fáciles de descubrir y acceder en los puntos clave de decisión en el recorrido del usuario.
  • Fomentan la toma de decisiones informadas sobre el uso de datos en la construcción, evaluación, políticas e investigación de modelos.

El proceso de creación de Tarjetas de Datos puede ser transformador en sí mismo, identificando oportunidades para mejorar el diseño del conjunto de datos. Por ejemplo, los creadores de Tarjetas de Datos podrían descubrir información sorprendente, como la necesidad de investigar las razones de un alto porcentaje de valores desconocidos o de establecer entendimientos compartidos de los léxicos utilizados en el etiquetado de conjuntos de datos.

Características Clave para la Transparencia (adaptado de la Tabla 1 en el documento fuente):

Varias características mejoran significativamente la transparencia cuando se aplican a los conjuntos de datos de IA:

  • Equilibrio de Opuestos: Divulgar información sin crear vulnerabilidades indebidas. Informar sobre análisis de equidad de manera responsable, evitando la legitimación de sistemas inequitativos. Diseñar estándares que sean más que listas de verificación.
  • Aumento de las Expectativas: Reconocer que toda la información divulgada enfrentará un mayor escrutinio.
  • Disponibilidad y Comodidad: Proporcionar información de transparencia en múltiples niveles, incluso si no se necesita de inmediato.
  • Requiere Controles y Contrapesos: Asegurar que los artefactos puedan ser evaluados por terceros, mientras se protege contra la transparencia excesiva que podría invitar a ataques adversarios.
  • Interpretaciones Subjetivas: Reconocer y abordar que las diferentes partes interesadas tienen interpretaciones variadas de la transparencia.
  • Habilitador de Confianza: Habilitar información que fomente la confianza en los consumidores de datos a través de los beneficios de los datos, los algoritmos y los productos.
  • Reducir las Asimetrías de Conocimiento: Facilitar la colaboración interdisciplinaria con vocabulario para describir los atributos del sistema de IA.
  • Refleja Valores Humanos: Integrar información tanto técnica como no técnica sobre suposiciones, hechos y posibles alternativas.

Fundamentalmente, la transparencia se alcanza cuando existe una comprensión compartida de los conjuntos de datos, basada en la capacidad de hacer y responder preguntas a lo largo del tiempo. Las Tarjetas de Datos deben facilitar una explicación clara y fácilmente comprensible de qué es un conjunto de datos, qué hace y por qué.

Tipología de las Partes Interesadas

Para maximizar la efectividad de las Tarjetas de Datos, es crucial reconocer los diversos roles de las partes interesadas a lo largo del ciclo de vida de los datos:

  • Productores: Aquellos que son creadores originales o iniciales de conjuntos de datos son responsables de la recopilación, el lanzamiento y el mantenimiento.
  • Agentes: Aquellos que leen los informes de transparencia y utilizan el conjunto de datos o determinan su uso por otros.
  • Usuarios: Incluyen individuos y representantes que interactúan con productos que dependen de modelos entrenados en el conjunto de datos, cuyos datos pueden incorporarse y que pueden no tener experiencia técnica.

Las Tarjetas de Datos más significativas y útiles proporcionan suficiente información adaptada a cada grupo de partes interesadas, abordando sus preocupaciones específicas y niveles de experiencia.

¿Cómo contribuye la metodología de desarrollo a la creación y evaluación de las Tarjetas de Datos?

Las Tarjetas de Datos son resúmenes estructurados que capturan detalles esenciales sobre los conjuntos de datos de aprendizaje automático. Las partes interesadas las utilizan a lo largo del ciclo de vida del conjunto de datos para garantizar un desarrollo de IA responsable. Aquí se explica cómo la metodología de desarrollo contribuye a su creación y evaluación:

Metodología de desarrollo multifacética

Un enfoque de diseño centrado en el ser humano, que retoma el diseño participativo y la interacción persona-ordenador, es fundamental para el desarrollo de las Tarjetas de Datos. Trabajar iterativamente con los equipos de conjuntos de datos de ML ayuda a perfeccionar las decisiones de diseño para abordar los desafíos de producción del mundo real.

  • Enfoque de cocreación: Trabajar directamente con los propietarios de los conjuntos de datos y modelos de ML para crear prototipos garantiza mejoras continuas en la usabilidad y la utilidad.
  • Grupos focales externos: Evaluar los borradores con las partes interesadas externas, incluidos investigadores de UX, HCI, responsables políticos, diseñadores de productos, académicos y expertos legales, establece definiciones de trabajo y valores de transparencia, lo que guía la creación de las Tarjetas de Datos.

Estandarización y marcos generativos

Se diseña una plantilla canónica con preguntas recurrentes para capturar 31 aspectos diferentes de los conjuntos de datos; como bloques apéndices, se añaden preguntas específicas para cada modalidad. El objetivo es permitir que los creadores de tarjetas de datos adapten las preguntas a los nuevos conjuntos de datos sin comprometer la legibilidad, la navegabilidad, la comparabilidad y la transparencia.

Talleres participativos

Los talleres participativos estructurados involucran a las partes interesadas interfuncionales para crear esquemas de metadatos transparentes para la documentación del conjunto de datos. Estos talleres ayudan a los equipos a alinearse en una definición compartida de transparencia, audiencia y requisitos de la audiencia.

Factores clave que influyen en la implementación a escala de las Tarjetas de Datos:

  • Asimetrías de conocimiento: Abordar las diferencias de comprensión entre las partes interesadas.
  • Procesos organizativos: Incentivar la creación y el mantenimiento de la documentación.
  • Compatibilidad de la infraestructura: Garantizar la preparación para la integración de las Tarjetas de Datos.
  • Cultura de comunicación: Fomentar una comunicación eficaz entre los grupos de partes interesadas.

Marco OFTEn

El marco OFTEn proporciona a los productores de conjuntos de datos un enfoque deliberado y repetible para producir documentación transparente. OFTEn considera las etapas comunes en el ciclo de vida del conjunto de datos. Las preguntas que plantea pueden aplicarse de forma inductiva y deductiva para realizar investigaciones detalladas sobre la transparencia del conjunto de datos. Las etapas son:

  • Orígenes: Definir los requisitos, las decisiones de diseño, los métodos de recopilación o abastecimiento y decidir las políticas.
  • Datos objetivos: Atributos estadísticos que describen el conjunto de datos.
  • Transformaciones: Operaciones que convierten los datos en bruto en formatos utilizables.
  • Experiencia: Evaluación comparativa del conjunto de datos en la práctica, incluidos los casos de uso.
  • n=1 (ejemplos): Proporcionar puntos de datos relevantes para las partes interesadas de diversas funciones.

Garantizar la calidad de las Tarjetas de Datos

Los errores en las Tarjetas de Datos pueden propagarse cuando se duplican y modifican, lo que provoca fragmentación e imprecisiones. Para evitar esto, es fundamental un proceso de revisión en el que participen expertos.

  • Revisores expertos: Asignar revisores con experiencia en datos, usabilidad y el dominio del conjunto de datos ayuda a garantizar la calidad.
  • Dimensiones para la evaluación: Utilizar dimensiones como la rendición de cuentas, la utilidad, la calidad, el impacto y el riesgo proporciona un enfoque estructurado para evaluar el rigor de las Tarjetas de Datos.

Dimensiones para la evaluación

Las siguientes dimensiones son vectores direccionales y pedagógicos que describen la utilidad de la Tarjeta de Datos para el agente que la revisa.

  • Rendición de cuentas: Evidencia de propiedad y toma de decisiones sistemática por parte de los productores.
  • Utilidad o uso: Detalles para satisfacer la toma de decisiones responsable.
  • Calidad: Rigor, integridad e integridad del conjunto de datos.
  • Impacto o consecuencias del uso: Expectativas de resultados al gestionar conjuntos de datos.
  • Riesgo y recomendaciones: Concienciación sobre los riesgos y las limitaciones.

Conclusión clave

La creación de Tarjetas de Datos se mejora con varios métodos y procesos. Desde el desarrollo de tarjetas de datos con los miembros del equipo, el marco OFTEn, la formulación coherente de preguntas, los talleres participativos y las dimensiones para la revisión. Estos métodos aumentan la validez, la fiabilidad, la rendición de cuentas, la utilidad y la calidad general de las Tarjetas de Datos.

¿Qué estrategias de contenido y organizativas se emplean para estructurar y garantizar la utilidad de las Tarjetas de Datos?

Las Tarjetas de Datos tienen como objetivo promover la transparencia y el desarrollo responsable de la IA proporcionando resúmenes estructurados de hechos esenciales sobre los conjuntos de datos de aprendizaje automático. Documentan varios aspectos del ciclo de vida de un conjunto de datos, incluyendo:

  • Fuentes ascendentes
  • Métodos de recopilación y anotación de datos
  • Métodos de entrenamiento y evaluación
  • Casos de uso previstos
  • Decisiones que afectan el rendimiento del modelo

El diseño se centra en garantizar que las tarjetas de datos sean fácilmente localizables y accesibles para una audiencia diversa. Las estrategias organizativas clave incluyen:

Marco OFTEn

El marco OFTEn estructura la documentación del conjunto de datos a lo largo de su ciclo de vida, teniendo en cuenta:

  • Orígenes: Actividades de planificación, consideraciones éticas y definiciones de requisitos.
  • Hechos: Atributos estadísticos, desviaciones de los planes originales y análisis de datos iniciales.
  • Transformaciones: Filtrado, validación, análisis y procesamiento de datos brutos.
  • Experiencia: Evaluación comparativa, implementación en entornos experimentales o de producción y análisis específicos de tareas.
  • N=1 (ejemplos): Ejemplos de puntos de datos transformados, incluyendo casos límite y fragmentos de código.

Marco Socrático de Preguntas: Alcances

Un marco de preguntas utiliza granularidades variables para la presentación de información. El marco utiliza telescopios, periscopios y microscopios como un enfoque novedoso para guiar a los usuarios a adoptar la ética de la IA y el ML.

  • Telescopios: Visión general de alto nivel para establecer el contexto.
  • Periscopios: Detalles técnicos e información operativa específica del conjunto de datos.
  • Microscopios: Detalles minuciosos sobre los procesos humanos, las decisiones y los supuestos que dan forma al conjunto de datos.

Este enfoque en capas tiene como objetivo dar cabida a usuarios con diferentes niveles de experiencia, permitiéndoles explorar progresivamente el contenido.

Diseño y Estructura

La unidad fundamental de una Tarjeta de Datos es un bloque, que se compone de los siguientes elementos:

  • Un título
  • Una pregunta
  • Espacio para instrucciones o descripciones adicionales
  • Un espacio de entrada para respuestas

El diseño estructura la Tarjeta de Datos utilizando bloques dispuestos temáticamente y jerárquicamente en una cuadrícula para permitir una presentación del conjunto de datos de «visión general primero, zoom y filtro, detalles a la demanda».

Evaluación

Para evaluar la calidad de las Tarjetas de Datos, las organizaciones pueden utilizar un conjunto de dimensiones o vectores direccionales y pedagógicos que describen su utilidad. Incluyen:

  • Responsabilidad
  • Utilidad o Uso
  • Calidad
  • Impacto o Consecuencias del Uso
  • Riesgos y Recomendaciones

¿Qué conocimientos se derivaron de la aplicación práctica en relación con la documentación responsable de conjuntos de datos de IA?

Las Tarjetas de Datos, resúmenes estructurados de hechos esenciales sobre conjuntos de datos, están demostrando ser una herramienta valiosa para el desarrollo responsable de la IA tanto en la industria como en la investigación. La aplicación práctica ha iluminado varios conocimientos clave, particularmente en torno a la transparencia, la participación de las partes interesadas y el impacto organizacional.

Transparencia y Explicabilidad

La transparencia y la explicabilidad de los resultados del modelo a través de la lente de los conjuntos de datos se han convertido en una preocupación regulatoria importante a nivel internacional. Las Tarjetas de Datos abordan esto proporcionando explicaciones claras y accesibles sobre los orígenes, el desarrollo y el uso previsto de un conjunto de datos, áreas a menudo opacas para las partes interesadas no técnicas. Utilizando explicaciones en lenguaje sencillo de qué es algo, qué hace y por qué lo hace.

Participación de las Partes Interesadas y Asimetrías de Conocimiento

  • Diversas Partes Interesadas: Las Tarjetas de Datos cierran la brecha entre los productores de datos y los consumidores de datos, incluidos revisores no expertos, analistas de políticas y diseñadores de productos.
  • Asimetrías de Conocimiento Reducidas: Crean un modelo mental compartido y un vocabulario que ayuda a las partes interesadas multidisciplinarias, lo que lleva a una toma de decisiones más informada y equitativa.
  • Colaboración: Las aplicaciones prácticas han demostrado que el proceso de creación de Tarjetas de Datos fomenta la colaboración y descubre oportunidades imprevistas para la mejora del conjunto de datos. Por ejemplo, un equipo descubrió razones inesperadas para un alto porcentaje de valores desconocidos en su conjunto de datos, lo que provocó una investigación más profunda y, en última instancia, mejoró la calidad de los datos.

Características Clave del Marco

Las Tarjetas de Datos deben ser:

  • Consistentes: Las Tarjetas de Datos deben ser comparables entre diferentes conjuntos de datos para garantizar que las afirmaciones sean fáciles de interpretar y validar.
  • Integrales: La creación de Tarjetas de Datos debe ocurrir simultáneamente con el desarrollo del conjunto de datos, y las responsabilidades deben distribuirse equitativamente entre los miembros del equipo.
  • Inteligibles y Concisas: Las Tarjetas de Datos deben atender a lectores con diferentes niveles de experiencia, comunicando información de manera eficiente sin abrumarlos y fomentando una comprensión compartida.
  • Explicables y Honestos Sobre la Incertidumbre: Los participantes del estudio valoran la información sobre lo que no se sabe. Genera confianza y la incertidumbre puede llevar a la mitigación de consecuencias no deseadas.

Implicaciones Organizacionales

Escalar la adopción de Tarjetas de Datos requiere una cuidadosa consideración de los factores organizacionales:

  • Incentivar la Documentación: Los procesos organizacionales deben incentivar la creación y el mantenimiento de las Tarjetas de Datos.
  • Compatibilidad de la Infraestructura: La integración perfecta con los datos existentes y las tuberías de modelos es crucial para mantener las Tarjetas de Datos actualizadas y relevantes.
  • Automatizar Con Discernimiento: Automatice para garantizar la precisión, pero evite automatizar campos de forma libre para justificaciones y suposiciones.
  • Cultura de Comunicación: La cultura de comunicación de una organización entre los grupos de partes interesadas puede afectar la sostenibilidad a largo plazo de las Tarjetas de Datos.

Características de la Transparencia

  • Facilitador de la Confianza: La información accesible y relevante aumenta la disposición a asumir riesgos basados en las expectativas de beneficios.
  • Refleja los Valores Humanos: Divulgación sobre supuestos, hechos y alternativas desde puntos de vista tanto técnicos como no técnicos.
  • Requiere Controles y Equilibrios: La creación debe ser susceptible a la evaluación de terceros.
En última instancia, la búsqueda de la transparencia del conjunto de datos depende de establecer un entendimiento compartido, fomentando una cultura donde las preguntas puedan hacerse y responderse fácilmente. Herramientas como las Tarjetas de Datos, que iluminan la naturaleza, el propósito y la lógica subyacente de un conjunto de datos, son fundamentales para hacer realidad esta visión. Su aplicación práctica revela su poder para mejorar la colaboración, abordar las lagunas de conocimiento y promover el desarrollo responsable de la IA, garantizando que los sistemas de IA no solo sean técnicamente sólidos, sino que también estén alineados con los valores humanos y las expectativas sociales. De cara al futuro, su implementación efectiva requiere un enfoque holístico que considere a las diversas partes interesadas, un control de calidad robusto y un ecosistema organizativo de apoyo.

More Insights

Gobernanza de la IA: Retos y Oportunidades para Profesionales de Seguridad

La inteligencia artificial (IA) está teniendo un amplio efecto en las líneas de negocio, incluida la ciberseguridad, con un estudio que muestra que el 63% de los profesionales de ciberseguridad creen...

Gobierno británico en la mira por la implementación de reconocimiento facial sin regulación

El gobierno del Reino Unido ha sido criticado por la implementación de tecnología de reconocimiento facial sin un marco legal adecuado. El Instituto Ada Lovelace ha expresado preocupaciones sobre el...

El Auge de Startups de Gobernanza en la Era de la IA

A medida que la explosión de la inteligencia artificial avanza, las soluciones de gobernanza están en gran demanda. La industria global de gobernanza de IA se valoró en 890 millones de dólares el año...

Perspectivas sobre la Moratoria de 10 Años en las Leyes Estatales de IA en EE. UU.

La Cámara de Representantes de EE. UU. aprobó un paquete de presupuesto que incluye una moratoria de 10 años sobre la aplicación de leyes estatales de inteligencia artificial. Tech Policy Press busca...

El Futuro de la IA en los Tribunales: Lecciones de 500 Casos

A través del mundo, la regulación de la inteligencia artificial (IA) es desigual, con algunas jurisdicciones que ya cuentan con regulaciones integrales y otras que solo se centran en reglas...

Estrategias Efectivas para Mitigar los Riesgos de la IA Responsable

La inteligencia artificial responsable se está transformando de una impresionante palabra de moda en una necesidad crítica para los negocios, especialmente en la región de Asia-Pacífico. A pesar de...

La necesidad urgente de gobernanza legal en la IA

En esta entrevista de Help Net Security, Brooke Johnson, Asesor Legal Principal de Ivanti, explora las responsabilidades legales en la gobernanza de la IA, destacando cómo la colaboración...

Reformando las Regulaciones de IA

La Cámara de Representantes aprobó recientemente un importante proyecto de ley que impide a los estados regular modelos de inteligencia artificial durante diez años. Esto preocupa a algunos...