Aplicar reglas de unificación de datos. Por ejemplo, poner en la fila correspondiente al sexo la misma letra identificativa, como podría ser “M” para masculino y “F” para femenino. En este caso, también se tendrían que identificar o corregir posibles errores, como que algún usuario haya puesto la “M” como mujer.
Validaciones de completitud. Como por ejemplo, comprobar que en todos los registros de datos de los clientes de un banco esté introducida la dirección postal completa, saltando una alarma si falta alguno.
Estandarización de datos. El objetivo es que todos los datos del mismo tipo estén introducidos de idéntica forma. Un ejemplo sería el DNI con la letra final de identificación fiscal junto a los números y sin guión de separación.
Aunque todavía no se considera como una etapa independiente del proceso de limpieza, es altamente recomendable realizar previamente un perfilado de datos donde se decide, a través de un muestreo, qué cambios realizar y de qué forma concreta hacerlos. De esta manera, garantizamos una limpieza posterior óptima y completamente estandarizada.
Conviene remarcar que en el perfilado aún no se realizan modificaciones, puesto que se trata de un análisis previo.
Tal vez te interese leer:
¿Por qué Informatica ETL es la mejor opción para integración de datos?