Los datos son uno de los principales activos de la empresa. Por lo tanto, el data quality o gestión de la calidad de datos constituye una prioridad, entendiendo como tal la consecución y el mantenimiento de unos datos precisos, consistentes y completos.
Los datos óptimos son aquellos que resulten funcionales para satisfacer las necesidades de la empresa a nivel operativo y estratégico. Para ello, los datos han de ser confiables y oportunos, lo que significa, -además de su precisión, consistencia y completitud-, estar correctamente interrelacionados y proporcionar una visión unificada.
Implementar una iniciativa de calidad de datos, lógicamente, implica llevar a cabo una estrategia de data quality que incluya la aplicación de la calidad en distintos puntos del proceso. Al margen de los servicios, metodologías y herramientas utilizadas, el objetivo final no será otro que la calidad del dato.
Data quality: La importancia de la calidad de datos
"Las organizaciones que no comprendan la contundente importancia de la gestión de los datos y de la información como un activo tangible no sobrevivirán a la nueva economía", nos recuerda Tom Peters, gurú del management de los negocios.
La necesidad competitiva de las organizaciones, en efecto, explica sin rodeos la importancia del data quality. Y es que, en efecto, la calidad de datos puede determinar el éxito o el fracaso de una organización.
De ser un problema cada vez más grande, pues la falta de calidad de datos va deteriorándolos y supone graves problemas de gestión y de incumplimiento de normativas, con iniciativas de data quality para corregirla además de solventarlos obtenemos una ventaja competitiva.
Una sustancial mejora de los resultados empresariales
Las empresas aquejadas de un problema de calidad de datos no cuentan con una información confiable, con lo que ello supone a todos los niveles. Porque, como es fácil deducir, los problemas no solo se producen a nivel interno.
Las dificultades se extienden desde el interior de la organización hacia fuera, proyectándose en aspectos capitales como la productividad, las relaciones con los clientes o proveedores, la toma de decisiones.
El impacto de la mala calidad de datos supone un peligro para la buena marcha de la empresa. Además de las consecuencias apuntadas, el impacto en el negocio se traduce en un aumento de los costes de gestión, en dificultades para detectar prácticas fraudulentas o, por ejemplo, en unos informes y análisis defectuosos.
Así es, la toma de decisiones estratégicas basadas en el análisis de datos se resiente de un modo especial. De hecho, el data quality es vital para quienes se dedican a la analítica predictiva, ya que la fiabilidad de las predicciones depende enormemente de la calidad de datos.
Las herramientas de análisis predictivo propias del Business Intelligence aplicadas a big data, como las técnicas de minería de datos y de análisis estadístico, entre otras, requieren técnicas de data quality para lograr que lleguen a buen puerto. Si los datos no son de calidad, inevitablemente, las decisiones estratégicas no encontrarán un respaldo que resulte fiable.
Tal vez te interese leer:
El problema de la duplicidad de datos y cómo corregirlo
Principales puntos donde identificar problemas de calidad de datos
Cada problema de calidad de datos puede presentar desafíos tanto en identificar dónde existen esos problemas como en la cuantificación de la magnitud de los problemas. La cuantificación es importante para determinar dónde deben centrar nuestros esfuerzos de data quality en primer lugar. Por ejemplo, un gran número de direcciones de correo electrónico faltantes podría ser alarmante, pero supondría un impacto pequeño si no existe un plan de comunicación por correo electrónico. Es imprescindible entender los requisitos de cada negocio.
Los siguientes siete puntos suelen ser las fuentes principales de problemas de calidad de datos:
- Calidad de la entrada: ¿La información entra en el sistema correctamente?
- Calidad del proceso: ¿Se ha mantenido la integridad de la información durante todo el procesamiento que se ha producido en el sistema?
- Calidad de identificación: ¿se identifica correctamente si dos objetos similares son el mismo o son diferentes?
- Calidad de integración: ¿Está integrada toda la información conocida acerca de un objeto hasta el punto de proporcionar una representación exacta del objeto?
- Calidad de uso: ¿Se utiliza e interpreta la información correctamente en el punto de acceso?
- Calidad del envejecimiento: ¿Ha pasado suficiente tiempo y por lo tanto la validez de la información ya no es confiable?
- Calidad organizacional: ¿Se puede conciliar la misma información entre dos sistemas basados en la forma en que la organización construye y visualiza los datos?
Un plan de acción de data quality debería tener en cuenta cada uno de estos puntos donde pueden producirse problemas de calidad de datos. Cada caso es diferente en cuanto a la facilidad de detección y corrección.