Actualmente, la limpieza de datos se considera una etapa previa y separada de los procesos ETL propiamente dicho, lo que NO significa que su importancia sea menor.
Importancia de la etapa de limpieza
- Asegura la calidad de los datos que vamos a procesar.
- Evita la información no veraz o errónea.
- Ahorra costes de espacio en disco al eliminarse la información duplicada.
- Agiliza las consultas por la ausencia de datos repetidos o inservibles.
- Ayuda a tomar decisiones estratégicas correctas.
Principios del proceso de limpieza
-
Aplicar reglas de unificación de datos. Por ejemplo, poner en la fila correspondiente al sexo la misma letra identificativa, como podría ser “M” para masculino y “F” para femenino. En este caso, también se tendrían que identificar o corregir posibles errores, como que algún usuario haya puesto la “M” como mujer.
-
Validaciones de completitud. Como por ejemplo, comprobar que en todos los registros de datos de los clientes de un banco esté introducida la dirección postal completa, saltando una alarma si falta alguno.
-
Estandarización de datos. El objetivo es que todos los datos del mismo tipo estén introducidos de idéntica forma. Un ejemplo sería el DNI con la letra final de identificación fiscal junto a los números y sin guión de separación.
El perfilado de datos
Aunque todavía no se considera como una etapa independiente del proceso de limpieza, es altamente recomendable realizar previamente un perfilado de datos donde se decide, a través de un muestreo, qué cambios realizar y de qué forma concreta hacerlos. De esta manera, garantizamos una limpieza posterior óptima y completamente estandarizada.
Conviene remarcar que en el perfilado aún no se realizan modificaciones, puesto que se trata de un análisis previo.
Tal vez te interese leer:
¿Por qué Informatica ETL es la mejor opción para integración de datos?
De una buena limpieza dependerá el óptimo resultado de un proceso ETL
No es posible lograr un buen resultado final en un proceso ETL, acorde a los objetos marcados, sino se realiza previamente una buena limpieza de los datos. Sin esta etapa previa no es posible disponer de una base de datos de calidad que permite la toma de decisiones acertadas a nivel estratégico o ejecutivo. Esto da una idea de la enorme necesidad de tomarse muy en serio esta etapa, realizándola acorde a unos parámetros correctos y teniendo en cuenta las recomendaciones de los expertos.