El valor de la gestión de datos

Calidad de datos en procesos ETL: las metas que debes fijarte

Posted on Thu, Jun 19, 2014

La calidad de datos ETL es crucial, no sólo para garantizar la efectividad del proceso en sí, sino para asegurar la coherencia futura en la toma de decisiones que se base en esos datos, algo que no podría siquiera plantearse cuando la extracción, transformación y carga no hayan procurado las condiciones óptimas de calidad.

Los problemas de calidad de datos que necesitan ser abordados se identifican mediante dos tipos de pruebas de calidad de datos: pruebas de sintaxis y de referencia. Las primeras reportarán la existencia de datos sucios sobre la base de patrones de caracteres (caracteres no válidos, orden de casos correctos inferior o superior, entre otros). Mientras que mediante la aplicación de las pruebas de referencia se comprobará la integridad de los datos de acuerdo con el modelo de datos. Así , por ejemplo, será posible advertir la inexistencia de registros en determinados campos o en el glosario de negocio.

Ambos tipos de pruebas informan utilizando dos niveles de gravedad diferentes: errores y advertencias. Cuando se detecta un error, el registro se registra y no pasa a través de la salida; sin embargo, las advertencias se registran pero no se detiene su proceso de carga en el almacén de datos.

 

calidad de datos etl

Créditos fotográficos: "Quality Character Shows Perfection Approval And Excellent" by Stuart Miles

 

Principios, reglas y calidad de datos ETL

Tal y como recomienda Arkady Maydanchik en su libro "Data quality asessment", las normas son importantes y mucho más en el entorno de la calidad de los datos. Tal y como él mismo explica en su obra, las reglas aplicables a la calidad de datos ETL se pueden agrupar en cinco categorías diferenciadas:

1. Limitaciones de atributo de dominio: que restringen los valores permitidos de los atributos de datos individuales. Son la más básica de todas las reglas de calidad de datos.

2. Reglas de integridad relacional: son las que se derivan de los modelos de datos relacionales, obligando a cumplir la identidad y la integridad referencial para cada dato.

3. Reglas de datos históricos: incluyen restricciones de línea de tiempo y patrones de valor para pilas de valor dependientes del tiempo y la historia de cada evento.

4. Reglas para los objetos dependientes del estado: asocian restricciones al ciclo de vida de los objetos descritos por los modelos de transiciones de estado.

5. Reglas de dependencia generales: describen las relaciones más complejas entre atributos, como por ejemplo restricciones en redundancias, derivadas, parcialmente dependientes y atributos correlacionados.

Sin embargo, el fijar ciertos estándares no implica que los problemas de calidad de datos queden resueltos, ni que se descubran las necesidades en cuanto a datos por parte de cada usuario. Aunque lo cierto es que resulta útil para llegar a un acuerdo acerca de valores aceptables y definiciones que puede mejorar los resultados finales de calidad de datos ETL.

  

 picha aquí para descargarte una guía más completa sobre calidad de datos.

 

Las implicaciones de la calidad de datos ETL y sus metas

Lo primero es conocer qué implicaciones tiene la calidad de datos ETL. Antes de su puesta a punto, la calidad debe ser una constante en todas las operaciones que se lleven a cabo, y ello incluye:

  •  Limpieza de datos.

  •  Validación de datos.

  •  Manipulación de datos.

  •  Pruebas de calidad de los datos.

  •  Perfilado de datos.

  •  Filtrado de datos.

Los principios de la calidad están estrechamente relacionados con el concepto de mejora continua. Si no se parte de estos mínimos es difícil, por no decir imposible, el garantizar que la calidad permanecerá inalterable con el paso del tiempo, el avance de los procesos y la evolución de las operaciones.

Para lograr mantener los niveles deseables de calidad de datos, ETL ha de planificarse teniendo en cuenta la toma de las siguientes tres acciones:

  •  Medir: para poder mejorar o mantener posiciones es indispensable conocer el inicio, el punto de partida. Esta información permitirá trazar un plan, desarrollar una estrategia y satisfacer las necesidades que se vayan presentando durante el proceso de extracción, transformación y carga.

  •  Analizar: de la interpretación de las métricas se producirá la transición a la detección de las tendencias. Son éstas y los pequeños detalles las que marcan el camino a seguir, actuando como directrices de la toma de decisiones y minimizando el riesgo.

  •  Mejorar: es el propósito de toda empresa y la única forma de mantenerse en el entorno tan dinámico que vivimos hoy día. El descubrimiento de desviaciones y su análisis son las claves para poder practicar los ajustes que sean necesarios y lograr que en el momento de la carga de datos la calidad no sea cuestionable.

Cada una de estas acciones detenta sus objetivos específicos pero todas comparten meta global: el aseguramiento de la calidad de datos ETL a través de la garantía de todos los atributos de calidad del dato a lo largo del proceso que los traslada desde la fuente de origen hasta el sistema de destino.

 

Recomendaciones prácticas para la calidad de datos ETL

En la práctica, una buena solución para simplificar algunas partes del proceso puede ser, siempre que sea aplicable, el capturar los registros que contienen datos no válidos en un archivo de rechazos para su posterior inspección.

El siguiente paso sería analizar todos estos datos anómalos y actuar sobre ellos. De esta manera, el diseño de procesos ETL será bastante sencillo y contará con una entrada, una etapa de validación y dos salidas: registros validados y datos sucios; mientras que la calidad de todo el proceso quedará preservada.

 Post relacionados:

 
 
calidad de datos imprescindibles factores

Topics: Data Quality