Data profiling: qué es y cómo ayuda a mejorar la calidad de los datos

El data profiling requiere tiempo y esfuerzo, pero así los resultados serán de calidad. Mire cómo.


En un mundo cada vez más interconectado y digital, la relevancia de los datos es incuestionable, pero para que además sean funcionales a nuestro negocio, debemos prestar especial atención a su calidad.

Y si vamos a trabajar en proyectos que fomenten la calidad de datos es importante dar relevancia al data profiling, uno de los pasos más críticos del proceso. El Data profiling o perfilado de datos es un proceso que consiste en revisar la fuente del dato, entender su estructura, contenido y relaciones y así identificar el potencial que tiene para los diferentes proyectos de negocios.

¿Cuáles son las mejores prácticas que se pueden aplicar para que el data profiling se resuelva con mayor éxito?

Porcentajes en blanco o con valor cero

Es importante analizar cada una de las columnas. Necesitaremos hacerlo por si se produce algún tipo de pérdida de dato (en blanco) o si hay información desconocida (valores cero) que puedan producir problemas de interpretación posteriores. Al detectarlos, los arquitectos pueden configurar unos valores predefinidos más acertados, dando lugar a excepciones en casos concretos que ayuden a que el mantenimiento diario sea más satisfactorio.

Analizar los valores únicos

El siguiente paso será llevar a cabo un análisis concreto de los distintos valores que nos podemos encontrar en cada una de las columnas. Al hacer esto en los datos originales, estaremos identificando los factores clave de la base de datos y ahorrando tiempo y esfuerzo posterior.

En los mejores casos, estos valores únicos se destacan en el propio archivo gracias a los nombres de las columnas o a la información de soporte que se haya proporcionado. En otros casos, hay que esforzarse e identificar los factores clave.

 

La calidad de los Datos como parte esencial de MDM

 

Análisis de rango numérico y de fecha

Trabajar con el rango numérico y de fechas con valores máximos y mínimos nos ayudará a equilibrar el rendimiento, gracias a que conoceremos los distintos tipos de data existentes limitando el margen de error. Tener a mano esta información nos evitará situaciones no deseadas y posibles problemas que puedan aparecer de la noche a la mañana. En el pasado, era muy común el problema de la conversión de fechas de Oracle a SQL Server. Hasta que se dio una solución definitiva, las fechas iniciales límite se establecían en el 1 de enero de 1753, lo que daba lugar a fallos en los sistemas de Oracle. Gestionar bien los rangos numéricos y de fecha llevará a que estos posibles problemas no sucedan.

Extensión de los strings máximos, mínimos y medios

Uno de los aspectos en los que siempre se tiene que pensar en el data profiling es la necesidad de optimizar y de aumentar la efectividad del trabajo. Para ello, tenemos que acelerar en todos los sentidos. Esto también significa reducir los anchos de las columnas de manera que siempre trabajemos con una media adecuada. Lo que ocurrirá gracias a esto es que los tiempos de escaneo se reducirán y la eficacia aumentará. Lo mejor en este contexto es definir strings que sean de un volumen medio, al analizar previamente los máximos y mínimos con los que solemos trabajar en nuestro negocio.

No obstante, siempre es algo que se tiene que mantener gestionado para que, con el paso del tiempo, no se produzcan desajustes en las extensiones medias.

 

 

Tal vez te interese leer: 
Customer life cycle: cómo ganar visibilidad y eficiencia operacional

 

 

Mejores prácticas para mantener la calidad de datos

Teniendo todo eso en cuenta, se puede ir más allá y asegurarnos de que el data profiling lo realizamos siguiendo las mejores prácticas. Para ello, vamos a concentrarnos en tres aspectos:

  1. Asegurar la integridad de la información
  2. La cardinalidad entre los distintos datos existentes dentro de la base de datos
  3. El análisis de los patrones.
Este último tiene una complejidad significativa, pero es recomendado ya que permite conocer información valiosa como las tendencias de distribución o el análisis de atributo de clientes muy específicos.

Asegurarnos un proceso de data profiling exitoso mejora la calidad de nuestros datos y los deja listos para ser utilizados en los distintos proyectos que, cada vez más, se orientan hacia la analítica aumentada y el machine learning.

 

Consulta con un experto en Datos Maestros

 

 

 

Artículos relacionados

Subscríbete a nuestro blog y recibe las últimas actualizaciones sobre gestión de datos.

Descubre contenido nuevo todos los días para profundizar la transformación digital en tu organización.