El valor de la gestión de datos

La Limpieza de Datos: la etapa previa a los Procesos ETL

Posted on Tue, Aug 6, 2013
Actualmente, la limpieza de datos se considera una etapa previa y separada de los procesos ETL propiamente dicho, lo que NO significa que su importancia sea menor.

Los procesos ETL son cruciales en la integración de datos. Aprende más sobre  ellos en este eBook gratuito: "Procesos ETL: La base de la inteligencia de negocio". 

data  transfer48

Importancia de la etapa de limpieza

  • Asegura la calidad de los datos que vamos a procesar.
  • Evita la información no veraz o errónea.
  • Ahorra costes de espacio en disco al eliminarse la información duplicada.
  • Agiliza las consultas por la ausencia de datos repetidos o inservibles.
  • Ayuda a tomar decisiones estratégicas correctas.

 

 

Principios del proceso de limpieza

  • Aplicar reglas de unificación de datos. Por ejemplo, poner en la fila correspondiente al sexo la misma letra identificativa, como podría ser “M” para masculino y “F” para femenino. En este caso, también se tendrían que identificar o corregir posibles errores, como que algún usuario haya puesto la “M” como mujer.

  • Validaciones de completitud. Como por ejemplo, comprobar que en todos los registros de datos de los clientes de un banco esté introducida la dirección postal completa, saltando una alarma si falta alguno.

  • Estandarización de datos. El objetivo es que todos los datos del mismo tipo estén introducidos de idéntica forma. Un ejemplo sería el DNI con la letra final de identificación fiscal junto a los números y sin guión de separación.

¡Consulta gratuitamente a uno de nuestros expertos sobre los Procesos ETL!

El perfilado de datos

Aunque todavía no se considera como una etapa independiente del proceso de limpieza, es altamente recomendable realizar previamente un perfilado de datos donde se decide, a través de un muestreo, qué cambios realizar y de qué forma concreta hacerlos. De esta manera, garantizamos una limpieza posterior óptima y completamente estandarizada.

Conviene remarcar que en el perfilado aún no se realizan modificaciones, puesto que se trata de un análisis previo.

 

De una buena limpieza dependerá el óptimo resultado de un proceso ETL

No es posible lograr un buen resultado final en un proceso ETL, acorde a los objetos marcados, sino se realiza previamente una buena limpieza de los datos. Sin esta etapa previa no es posible disponer de una base de datos de calidad que permite la toma de decisiones acertadas a nivel estratégico o ejecutivo. Esto da una idea de la enorme necesidad de tomarse muy en serio esta etapa, realizándola  acorde a unos parámetros correctos y teniendo en cuenta las recomendaciones de los expertos. 

 

 

procesos etl en profundidad

Topics: Data Quality, Data Warehouse