El valor de la gestión de datos

Mejores prácticas en las iniciativas de calidad de datos

Posted on Mon, Oct 29, 2018

A la hora de trabajar en iniciativas que fomenten la calidad de datos es importante que en todo momento se recuerde dar relevancia al data profiling, uno de los pasos más críticos del proceso. Representa una de las piezas fundamentales cuando se trabaja tanto con nuevas bases de datos como con aquellas que se están mejorando tomando de referencia uno de los sistemas que ya estén creados. Es importante decir que el data profiling requiere tiempo y esfuerzo, pero que así mismo los resultados le darán a los arquitectos de la base de datos la oportunidad de conseguir dos cosas. Por un lado: reducir los riesgos del proyecto gracias a la identificación de posibles problemas que puedan aparecer con el tiempo. Por otro lado: diseñar soluciones más efectivas. ¿Pero cuáles son las mejores prácticas que se pueden aplicar para que el data profiling se resuelva con mayor éxito?

data profiling

Porcentajes en blanco o con valor cero

Es importante analizar cada una de las columnas. Necesitaremos hacerlo por si se produce algún tipo de pérdida de dato (en blanco) o si hay información desconocida (valores cero) que pueda producir problemas posteriores. Al detectar estos factores los arquitectos pueden configurar unos valores predefinidos más acertados, dando lugar a excepciones en casos concretos que ayuden a que el mantenimiento diario sea más satisfactorio.


Analizar los valores únicos

El siguiente paso será llevar a cabo un análisis concreto de los distintos valores que nos podemos encontrar en cada una de las columnas. Al hacer esto en los datos originales estaremos identificando los factores clave de la base de datos y ahorrando tiempo y esfuerzo posterior. En los mejores casos estos valores únicos se destacan en el propio archivo gracias a los nombres de las columnas o a la información de soporte que se haya proporcionado. En otros casos hay que esforzarse e identificar los factores clave.


Análisis de rango numérico y de fecha

Trabajar con el rango numérico y de fechas con valores máximos y mínimos nos ayudará a equilibrar el rendimiento gracias a que conoceremos los distintos tipos de data existentes. Tener a mano esta información nos evitará situaciones no deseadas y posibles problemas que puedan aparecer de la noche a la mañana. En el pasado fue notorio el problema de la conversión de fechas de Oracle a SQL Server. Hasta que se dio una solución, había un problema por el cual las fechas iniciales límite se establecían en el 1 de enero de 1753, lo que podía dar fallos en los sistemas de Oracle. Gestionar bien los rangos numéricos y de fecha llevará a que estos posibles problemas no se sucedan.


Extensión de los strings máximos, mínimos y medios

Uno de los aspectos en los que siempre se tiene que pensar en el data profiling es la necesidad de optimizar y de aumentar la efectividad del trabajo. Para ello tenemos que apurar en todos los aspectos y esto también significa reducir los anchos de las columnas de manera que siempre trabajemos con una media adecuada. Lo que ocurrirá al conseguir esto es que los tiempos de escaneo se reducirán y la eficacia aumentará. Lo mejor en este contexto es definir unos strings que sean de un volumen medio al analizar previamente los máximos y mínimos con los que solemos trabajar en nuestro negocio. No obstante, siempre es algo que se tiene que mantener gestionado para que con el paso del tiempo no se produzcan desajustes en las extensiones medias.


Pasos importantes entre las "best practices"

Teniendo todo eso en cuenta se puede ir más allá y asegurarnos de que el data profiling lo realizamos siguiendo las mejores prácticas. Para ello vamos a concentrarnos en tres aspectos: asegurar la integridad de la información, la cardinalidad entre los distintos datos existentes dentro de la base de datos, y el análisis de los patrones. Este último apartado tiene una complejidad significativa, pero permite conocer información como las tendencias de distribución o el análisis de atributo de clientes muy específicos.

 

calidad de datos sofisticada

Topics: Data Quality