
Cuando una empresa debe hacer una migración a sistemas nuevos o, más aún, encarar seriamente un proceso de transformación digital, uno de los primeros desafíos que aparecen es el de la calidad de los datos.
De hecho, no son pocos los casos en los que las compañías aprovechan esas circunstancias para verificar la calidad de sus datos. Y no es raro descubrir que se impone —muchas veces, de manera imperiosa— un proceso de limpieza de los datos (data cleaning), algo que debería haberse hecho hace tiempo y regularmente.
¿Por qué es tan importante mantener la calidad de los datos? ¿Acaso nuestro negocio depende de eso? Las primeras impresiones dirían que la respuesta es sí.
En la evolución de una tecnología suelen darse dos procesos: por un lado, tecnologías o procedimientos ya existentes que se reciclan con nuevos nombres y fisonomías. Por el otro, tecnologías o procedimientos que nacieron para una función determinada y terminaron con un propósito más amplio y efectivo.
Data Quality (calidad de datos) conserva un poco de ambas situaciones. Nacido en la época en el que se comenzó a hablar de Data Warehousing y Data Mining, si dejamos de lado aquellos procesos de normalización que demandaban las bases de datos relacionales. Estos últimos años, el concepto de Calidad de los Datos se recicló y volvió a aparecer con fuerza a partir del Business Intelligence y, sobre todo, del fenómeno de Big Data y de las bases no relacionales.
Por otro lado, según a quien se le pregunte, Data Quality es todo un proceso completo en sí o parte de uno más grande que algunos llaman Data Management, otros Data Preparation, Data Cleansing o Data Optimization. Cada proveedor de software le da un nombre de acuerdo al producto que vende.

Según un informe de Gartner sobre el Cuadrante Mágico del tema publicado en octubre de 2017, Data Quality es la disciplina que “garantiza que los datos sean adecuados para el propósito en el contexto de las operaciones de negocios existentes, el análisis y los escenarios empresariales digitales emergentes”.
Es mucho más que sólo tecnología. Incluye administración de programas, roles, estructuras organizacionales, casos de uso y procesos y también está vinculado a iniciativas más amplias en el campo de la gestión de información empresarial, incluida la gobernanza de la información y la gestión de datos maestros.

Te va a interesar: Data profiling: qué es y cómo ayuda a mejorar la calidad de los datos

La limpieza de datos: base fundamental
Aunque una empresa tenga la seguridad de que sus datos están limpios y actualizados, siempre conviene implementar regularmente un proceso de calidad. Toda estrategia de datos debería contemplar una práctica de data quality para asegurar su integridad, coherencia, confiabilidad y accesibilidad con el fin de hacer frente a los desafíos que trae la era digital para el negocio. En otras palabras, no es suficiente tener libre acceso a los datos, ese dato debe ser de calidad.
Veamos los cuatro pasos a completar para mejorar la gestión de calidad de sus datos:
- Descubrimiento. Sólo se puede planear un trayecto de calidad de datos una vez que se entienda el punto de partida. Para hacerlo, hay que evaluar el estado actual de los datos: dónde residen, su sensibilidad, las relaciones de datos, y cualquier problema de consistencia que tenga.
- Definición de reglas. La información que se recoge durante la fase de descubrimiento determina las decisiones sobre el proceso de calidad de los datos que se necesitan y las reglas que se crearán para alcanzar el estado final deseado. Por ejemplo, puede que se necesite limpiar y deduplicar datos, estandarizar su formato o descartar datos anteriores a una fecha determinada. Hay que tener en cuenta que se trata de un proceso de colaboración entre las diversas áreas de la empresa y TI.
- Aplicar las reglas. Una vez que se hayan definido, integrarlas en los conductos de datos es el siguiente paso. Las herramientas de calidad de datos deben integrarse en todas las fuentes y objetivos de datos para remediar la calidad en toda la organización.
- Supervisar y gestionar. La calidad de los datos no es un ejercicio de una sola vez. Para mantenerla, es necesario poder supervisar e informar sobre todos los procesos de calidad de los datos de forma continua, en las instalaciones y en la nube, utilizando cuadros de mando, tarjetas de puntuación y visualizaciones.
Una vez que se han eliminado los errores de calidad, los datos “limpios” deben reemplazar a los que no lo están en las fuentes originales, para que las aplicaciones legacy puedan beneficiarse también de ellos. Así se evita la necesidad de más acciones de data cleansing en el futuro.
Big Data depende de datos limpios, contextuales y confiables; muchos proyectos de Big Data ignoran o no pueden ver el impacto que los datos incorrectos pueden tener en el resultado.
En otras palabras, recuerde un axioma que está comenzando a popularizarse: datos limpios, resultados concretos.
