El valor de la gestión de datos

El primer pilar en una solución de calidad de datos: Tecnología-Arquitectura

Publicado el 22/06/14 14:00

Captura de pantalla 2014 03 24 a la(s) 16.15.48

Desde el punto de vista de negocio, una solución de calidad de datos se basa en cuatro pilares: tecnología, know-how, procesos y metodología. Vamos a analizar detenidamente el primero de ellos.

Ciertamente, la tecnología es fundamental por las funcionalidades intrínsecas, la mejora continua de nuevas funciones, el soporte ofrecido, etc, generando una eficiencia en términos de tiempos de desarrollo y una reducción en costes muy significativa.

La arquitectura a emplear en una solución de calidad de datos está integrada por varios componentes y a su vez, cada uno de esos componentes está especializado en ofrecer soluciones concretas eficientes.

En este sentido, básicamente, lo primero que necesitamos es un módulo que nos proporcione una visión completa de cómo está nuestra base de datos con respecto a los principales atributos de los datos.

A continuación, necesitamos un módulo que nos permita desarrollar reglas de negocio sobre los defectos encontrados en nuestra base de datos. Este módulo debe ser completado con dos sub-módulos más: el identificador de duplicados y el identificador fonético.

Al mismo tiempo, la arquitectura debe proveer también los diccionarios de la verdad, que se usarán para identificar y sustituir las variantes de un nombre por su nombre real de una forma automática.

Y finalmente, y quizá el módulo más importante, es el firewall que impedirá que nuevos datos erróneos entren de nuevo en los sistemas, ya que sin ello no tendría sentido un proyecto de calidad de datos.

Técnicas DQ

DQ es una familia de ocho o más técnicas relacionadas entre sí. La estandarización de datos es el método más comúnmente usado, seguido de verificaciones, validaciones, monitoreo, profiling, matching, y así sucesivamente.

Las organizaciones suelen aplicar sólo una técnica, a veces un par de ellas, y generalmente sobre un único tipo de datos. El más usual es la limpieza del nombre y dirección aplicado a los conjuntos de datos de contacto directo, aunque difícilmente se aplica a los conjuntos de datos fuera de las campañas de marketing directo.

Del mismo modo, las técnicas de deduplicación, unificación y enriquecimiento son raramente aplicadas fuera del contexto del householding.

Muchos DQ se centran en el dominio de datos de clientes únicamente. La realidad es que también se podrían mejorar otros ámbitos, tales como productos, datos financieros, socios, empleados y ubicaciones.

Los proyectos actuales de DQ son una especie de hub de calidad que apoyan el intercambio de datos a través de diversas aplicaciones, debiendo soportar funciones básicas de agregación, estandarización, resolución de identidad, etc ,en tiempo real.

Real Time DQ

La migración gradual hacia la operación en tiempo real es la tendencia actual en la gestión de datos. Esto incluye los datos disciplinas de gestión de calidad de datos, integración de datos, gestión maestra de datos y el procesamiento de eventos complejos.

Entre éstos, la gestión de la calidad en tiempo real es el segundo en crecimiento, después de MDM y justo antes de la integración.

Los procesos de negocios de ritmo rápido exigen limpiar y completar los datos tan pronto como los datos se están creando o modificando para apoyar el servicio al cliente, la entrega al día siguiente, el BI operacional, las transacciones financieras, cross & up selling y las campañas de marketing.

Del mismo modo, estos mismos procesos exigen el intercambio de datos en tiempo real a través de múltiples aplicaciones con la superposición de responsabilidades (por ejemplo, un registro de cliente compartida entre la planificación de recursos empresariales y aplicaciones de CRM ).

Por estas y otras situaciones, la calidad de datos en tiempo real reduce el riesgo empresarial y corrige o mejora la información mientras está en movimiento en un proceso de negocio .

 

picha aquí para descargarte una guía más completa sobre calidad de datos.

 

Perfilado

Mejorar continuamente la calidad de los datos es un reto cuando no se sabe el estado actual de los datos y su uso. Además, comprender los datos empresariales a través de profiling es un punto de partida para decidir qué datos necesitan especial atención.

¿Qué es el perfilado? Se trata de una serie de técnicas para identificar datos erróneos, datos nulos, datos incompletos, datos sin integridad referencial, datos que no se ajustan al formato requerido, patrones de información de negocio, tendencias, medias, desviaciones estándares, etc.

Es fundamental contar con un buen perfilado por dos motivos: 1) el análisis sobre el proyecto es realista y fidedigno  y 2) nos permitirá a partir de la segunda iteración, medir y comparar la evolución de los indicadores de gobierno del proyecto de calidad.  

En este sentido, para que el profiling se convirtierta en una técnica esencial para el DQ debe cumplir ciertos requisitos:

Debe ser reusable

Por lo general el profiling está centrado en la generación de estadísticas sobre los tipos de datos y los valores de una sola columna de una tabla en una base de datos .

Sin embargo, una buena herramienta debería revelar dependencias que llegaran a través de múltiples tablas, bases de datos y de sistemas .

Monitorización de datos

El seguimiento de datos es una forma de profiling, ya que cada vez que se utiliza mide el grado de avance de la calidad. Esta es la clave para corroborar la mejora continua de los datos.

Monitorización de procesos de calidad de datos

Esta función compara la fuente y el destino para verificar que los datos se cargan correctamente , lo cual es imprescindible en cualquier proceso de calidad de datos.

Componentes de la Arquitectura

La arquitectura está compuesta por varios elementos. Vamos a analizarlos:

Data Quality Web Services

Se trata de una facilidad para desarrollar web services que son llamados desde PowerCenter Web Services Hub con el propósito de invocar mappings conteniendo transformaciones de Informatica Data Quality u otros procesos o aplicativos llaman a estos web services. La ventaja fundamental es que permiten gestionar la información que entra a los sistemas, impidiendo entrada de información manual..

Identity Resolution

Proporciona un diccionario de las palabras más usadas en el país con el objeto de identificar y hacer match de la jerga.

AddressDoctor Software Library

Proporciona la funcionalidad de parseo, limpieza, validación y estandarización de direcciones así como de asignación de geo- coordenadas. Es el diccionario de la verdad indispensable para evitar tener cientos de variantes de calles en el sistema.

Data Explorer

Proporciona un entorno de cliente servidor para tres dimensiones de perfilado (columna, tabla, cross tabla), orphan analysis, validación clave, identificación y tagging de problemas de calidad.

Data Analyzer

Pensado para analizar, estandarizar, enriquecer, deduplicar, corregir y reportar todos los master data types incluyendo cliente, producto, inventario, activos y datos financieros. Permite desarrollar reglas de calidad customizadas según las necesidades concretas de cada cliente.

Data Quality Identity Match Option

Proporciona búsquedas, matching y muestra duplicados de datos almacenados en bases de datos relacionales y ficheros planos.

 

Post relacionados:


calidad de datos imprescindibles factores

Temas: Data Quality