Nueva certificación ISO/IEC 5259 para la calidad de los datos de la IA

Importancia de la calidad de los datos en la IA

La calidad de datos de la IA se puede entender como el conjunto de propiedades (técnicas y de negocio) que hacen que los datos sean aptos para entrenar, validar y operar modelos de IA de forma fiable, robusta, justa y auditable. En IA, los datos de mala calidad dan lugar a pésimos resultados: pueden crear sesgos, inestabilidad y decisiones imposibles de explicar.

La calidad de datos es importante para la IA porque, en la práctica, los datos son la entrada que define lo que el modelo aprende, cómo generaliza y cómo se comporta en producción. Si la entrada no es de calidad, no podemos esperar que la salida, lo que la IA nos devuelve, sí lo sea. La calidad de los datos, por tanto:

  • Determina lo que el modelo aprende (y lo que no). Un modelo no aprende “la realidad”, aprende patrones estadísticos del conjunto de datos. Si hay errores, ausencias o incoherencias, el modelo aprende patrones equivocados o incompletos.
  • Evita sesgos y decisiones injustas. Datos no representativos (por ejemplo, ciertas zonas, edades, tipos de cliente) hacen que el modelo rinda muy bien para unos y muy mal para otros. En IA, esto se traduce en discriminación indirecta y resultados sistemáticamente peores para subgrupos.
  • Reduce inestabilidad y resultados “caprichosos”. Inconsistencias, duplicados, cambios de esquema, outliers y ruido en etiquetas provocan modelos sensibles: pequeños cambios en entrada → grandes cambios en salida. Eso mata la confianza y complica el mantenimiento.
  • Mejora el rendimiento real, no solo métricas de laboratorio. Con datos de mala calidad puedes inflar métricas por data leakage (fugas), por muestreos mal hechos o por etiquetas erróneas. La calidad de datos ayuda a que la evaluación sea honesta y el rendimiento sea transferible a producción.
  • Permite explicabilidad y trazabilidad. Si no sabes de dónde viene cada variable, cómo se transformó, qué versión del conjunto de datos se usó y bajo qué reglas, no puedes explicar ni reproducir decisiones del modelo. Eso es crítico en auditorías y en sistemas de alto impacto.
  • Es la base del cumplimiento y de la auditoría. Privacidad, minimización, finalidad, retención, y controles internos (y regulatorios) dependen de tener datos controlados: linaje, consentimiento cuando aplica, calidad de etiquetas, gestión de incidencias, etc.
  • Aumenta la robustez en producción. Aunque entrenes con datos perfectos, el mundo cambia: data drift y concept drift. Si no monitorizas la calidad de los datos de entrada y la estabilidad de distribuciones, el modelo se degrada “en silencio”.
  • Reduce costes y ciclos de iteración. La mayoría del tiempo en proyectos de IA se va debido a los datos. Mejorar su calidad reduce retrabajo: menos depuración, menos reentrenamientos inútiles, menos incidentes, y decisiones más rápidas sobre si un modelo es viable.

Cómo refleja la importancia de la calidad de los datos la ISO/IEC 42001

La norma ISO/IEC 42001 refleja la importancia de la calidad de los datos de forma muy explícita: no la trata como “algo deseable”, sino como un requisito/control operativo dentro del Sistema de Gestión de IA (SGIA) que debe poder planificarse, ejecutarse, evidenciarse, auditarse y mejorarse.

1) La incorpora como concepto formal del sistema

La norma define “data quality” (calidad de datos) como una característica ligada a que los datos cumplan los requisitos de la organización para un contexto específico.

2) La convierte en control específico: A.7.4 “Quality of data for AI systems”

En el catálogo de controles de referencia (Anexo A), dentro de “Data for AI systems (A.7)”, aparece un control dedicado: A.7.4 Quality of data for AI systems, que exige definir y documentar requisitos de calidad y asegurar que los datos usados para desarrollar y operar el sistema de IA los cumplen.

Esto es la prueba más directa de su importancia: la calidad de datos se gestiona como control obligatorio/seleccionable (según alcance y SoA) con evidencias.

3) Exige trazabilidad para que la calidad sea demostrable (no “opinable”)

Junto a la calidad, el Anexo A incluye controles como:

  • A.7.5 Data provenance (linaje/procedencia): registrar origen y transformaciones.
  • A.7.6 Data preparation: criterios y métodos de preparación.

Esto refuerza que “calidad” no es solo métricas: es gobernanza del ciclo de vida del dato para poder justificar resultados, reproducir y auditar.

4) Da guía de implementación que conecta calidad con validez, sesgo y adecuación al propósito

En la guía de implementación (Anexo B), el apartado B.7.4 explica por qué la calidad impacta en la validez de las salidas, y pide definir/medir/mejorar la calidad de datos de entrenamiento, validación, test y producción, considerando también el impacto del sesgo en rendimiento y equidad.

5) La integra en el “ciclo PDCA” del sistema de gestión

Aunque el control A.7.4 es el punto central, ISO 42001 lo completa con el enfoque de gestión:

  • Requisitos de sistema de gestión que incluyen controles de gobierno de datos y del ciclo de vida (visión global de la norma).
  • Evaluación del desempeño (cláusula 9): obliga a monitorizar, medir, analizar y evaluar el SGIA; en la práctica, esto fuerza a tener KPIs/medidas (muchas veces, de calidad de datos y drift) y revisiones/auditorías periódicas.

Cómo refleja la importancia de la calidad de los datos el Reglamento Europeo de IA

Por otro lado, el AI Act (Reglamento (UE) 2024/1689) convierte la calidad de los datos en un requisito regulatorio (no solo “buena práctica”) porque entiende que muchos riesgos para la seguridad y los derechos fundamentales nacen directamente de datos defectuosos, sesgados o no representativos.

1) Requisito explícito para sistemas de IA de “alto riesgo”: Artículo 10

El reflejo más directo está en el Artículo 10 (Data and data governance): obliga a que los conjuntos de datos de entrenamiento, validación y prueba sean:

  • relevantes para el propósito,
  • suficientemente representativos,
  • y en la medida de lo posible, libres de errores y completos, con propiedades estadísticas adecuadas para las personas/grupos a los que afecte el sistema.

Esto es exactamente la “importancia” regulatoria: si tus datos no cumplen, tu sistema de alto riesgo no cumple el AI Act.

2) Obliga a la “gobernanza del dato”, no solo a medir métricas

El mismo Art. 10 exige prácticas de gobernanza y gestión de datos (cómo se recogen, preparan, anotan, controlan y versionan), incluyendo tratar sesgos, lagunas de datos y la adecuación al contexto real de uso (geográfico, conductual, funcional…).

En otras palabras: la AI Act no acepta “el modelo ya rinde bien”; pide procesos y controles para que el dato sea controlable y defendible.

3) Lo hace demostrable: documentación técnica y evaluación de conformidad

Para sistemas de alto riesgo, el Reglamento obliga a elaborar documentación técnica antes de comercializar/poner en producción y a mantenerla actualizada (esto es lo que luego se usa para demostrar cumplimiento, incluyendo lo relativo a datos).

Y esa lógica conecta directamente con el mercado: si no puedes demostrar (con evidencias) que gestionas la calidad de datos conforme a los requisitos, el sistema no debería poder ponerse en el mercado como conforme.

4) También afecta a modelos de propósito general (GPAI): transparencia sobre entrenamiento y datos

Para modelos de propósito general, la AI Act impone obligaciones de documentación técnica (Anexo XI) que incluyen información sobre el proceso de entrenamiento y los datos usados, y además exige un “public summary” del contenido usado para entrenar (con guías y plantillas de la Comisión). Esto refuerza la rendición de cuentas sobre la “materia prima” del modelo, es decir, los datos.

La norma ISO/IEC 5259

Considerando la importancia de la calidad de los datos y cómo referentes tan importantes como la AI Act o ISO/IEC 42001 tratan dicha calidad, es por lo que la familia de normas ISO/IEC 5259 es de capital importancia. Su objetivo es ayudar a definir, medir, gestionar y gobernar la calidad de los datos usados en analítica y aprendizaje automático (ML), para que los resultados sean fiables, comparables y auditables.

La norma ISO/IEC 5259 se apoya en normas previas de calidad de datos (p. ej. ISO/IEC 25012 e ISO 8000) pero los aterriza al contexto ML: medir/asegurar calidad con un lenguaje y práctica más orientada a pipelines, etiquetas, evaluación, etc.

La norma ISO/IEC 5259 está compuesta de:

    • 5259-1: Visión general, terminología y ejemplos. Es la “puerta de entrada”: define el marco, conceptos y ejemplos para entender y relacionar el resto de las partes.
    • 5259-2: Modelo y medidas de calidad de datos. Es la parte más operativa. Define un modelo de calidad y un conjunto de características y métricas, así como una guía para reportar la calidad de datos en analítica/ML.
    • 5259-3: Requisitos y directrices de gestión de calidad de datos. Define requisitos y guías para establecer y mejorar un sistema de gestión de calidad de datos aplicable a analítica/ML (estilo “sistema de gestión”, pero centrado en datos).
    • 5259-4: Marco de procesos de calidad de datos. Aporta un marco de procesos estandarizado para gestionar la calidad, con foco práctico (por ejemplo, etiquetado, evaluación y gestión a lo largo del ciclo de vida), aplicable a distintos tipos de ML (supervisado, no supervisado, etc.).
    • 5259-5: Marco de gobernanza de la calidad de datos. Define cómo la organización debe dirigir y supervisar la calidad del dato: roles, responsabilidades, rendición de cuentas ( “accountability”) y controles de gobernanza para asegurar que las medidas/procesos se aplican en toda la organización y su ciclo de vida.

    Centrándonos en ISO/IEC 5259-2, su alcance es muy claro: un modelo de calidad, un conjunto de métricas y un mecanismo para reportar la calidad de datos usados en tareas de analítica/ML (entrenamiento, validación, prueba y, por extensión práctica, operación). Además, es aplicable a cualquier organización que quiera cumplir objetivos de calidad de datos en este contexto.

    ISO/IEC 5259-2 está basado en ISO/IEC 25012 y las mediciones de ISO/IEC 25024, pero adaptándose a las necesidades de la IA. Para ello, toma como base las características de calidad definidas por ISO/IEC 25012 y las complementa con un nuevo conjunto de características y métricas propias para la IA, como se observa en la siguiente figura (obtenida de https://iso25000.com/index.php/normas-iso-25000/iso-25012).

    En I2SC somos pioneros en la certificación ISO/IEC 5259

    Por tanto, ISO/IEC 5259 permite a las organizaciones definir unos criterios de calidad para sus datos de la IA y demostrar posteriormente el cumplimiento de dichos criterios mediante un conjunto de métricas que permitan confiar en lo datos que se utilizan para entrenar, validar y operar la IA.

    En I2SC somos pioneros en la certificación de la norma ISO/IEC 5259, ofreciendo a nuestros clientes la posibilidad de certificar la calidad de los datos de sus sistemas de IA, confiando para ello en las evaluaciones realizadas por el único laboratorio acreditado a nivel internacional, como es AQCLab.

    Estas certificaciones de calidad de datos de la IA permiten a nuestros clientes no solo cumplir con las cláusulas respectivas en calidad de datos citadas en los referentes como la AI Act o ISO/IEC 42001, sino además estar tranquilos respecto a los datos que se utilizan en la IA.

    Si está interesado en la calidad de sus datos para la IA y en certificarlos bajo la norma ISO/IEC ISO 5259, no dudes en contactar con nosotros.