El primer pilar en una solución de calidad de datos: Tecnología-Arquitectura

Desde el punto de vista de negocio, una solución de calidad de datos se basa en cuatro pilares: tecnología, know-how, procesos y metodología. En este post podrás encontrar toda la información respecto a la tecnología.

jun 22, 2014

Captura de pantalla 2014 03 24 a la(s) 16.15.48

Desde el punto de vista de negocio, una solución de calidad de datos se basa en cuatro pilares: tecnología, know-how, procesos y metodología. Vamos a analizar detenidamente el primero de ellos.

Ciertamente, la tecnología es fundamental por las funcionalidades intrínsecas, la mejora continua de nuevas funciones, el soporte ofrecido, etc, generando una eficiencia en términos de tiempos de desarrollo y una reducción en costes muy significativa.

La arquitectura a emplear en una solución de calidad de datos está integrada por varios componentes y a su vez, cada uno de esos componentes está especializado en ofrecer soluciones concretas eficientes.

En este sentido, básicamente, lo primero que necesitamos es un módulo que nos proporcione una visión completa de cómo está nuestra base de datos con respecto a los principales atributos de los datos.

A continuación, necesitamos un módulo que nos permita desarrollar reglas de negocio sobre los defectos encontrados en nuestra base de datos. Este módulo debe ser completado con dos sub-módulos más: el identificador de duplicados y el identificador fonético.

Al mismo tiempo, la arquitectura debe proveer también los diccionarios de la verdad, que se usarán para identificar y sustituir las variantes de un nombre por su nombre real de una forma automática.

Y finalmente, y quizá el módulo más importante, es el firewall que impedirá que nuevos datos erróneos entren de nuevo en los sistemas, ya que sin ello no tendría sentido un proyecto de calidad de datos.

Técnicas DQ

DQ es una familia de ocho o más técnicas relacionadas entre sí. La estandarización de datos es el método más comúnmente usado, seguido de verificaciones, validaciones, monitoreo, profiling, matching, y así sucesivamente.

Las organizaciones suelen aplicar sólo una técnica, a veces un par de ellas, y generalmente sobre un único tipo de datos. El más usual es la limpieza del nombre y dirección aplicado a los conjuntos de datos de contacto directo, aunque difícilmente se aplica a los conjuntos de datos fuera de las campañas de marketing directo.

Del mismo modo, las técnicas de deduplicación, unificación y enriquecimiento son raramente aplicadas fuera del contexto del householding.

Muchos DQ se centran en el dominio de datos de clientes únicamente. La realidad es que también se podrían mejorar otros ámbitos, tales como productos, datos financieros, socios, empleados y ubicaciones.

Los proyectos actuales de DQ son una especie de hub de calidad que apoyan el intercambio de datos a través de diversas aplicaciones, debiendo soportar funciones básicas de agregación, estandarización, resolución de identidad, etc ,en tiempo real.

Real Time DQ

La migración gradual hacia la operación en tiempo real es la tendencia actual en la gestión de datos. Esto incluye los datos disciplinas de gestión de calidad de datos, integración de datos, gestión maestra de datos y el procesamiento de eventos complejos.

Entre éstos, la gestión de la calidad en tiempo real es el segundo en crecimiento, después de MDM y justo antes de la integración.

Los procesos de negocios de ritmo rápido exigen limpiar y completar los datos tan pronto como los datos se están creando o modificando para apoyar el servicio al cliente, la entrega al día siguiente, el BI operacional, las transacciones financieras, cross & up selling y las campañas de marketing.

Del mismo modo, estos mismos procesos exigen el intercambio de datos en tiempo real a través de múltiples aplicaciones con la superposición de responsabilidades (por ejemplo, un registro de cliente compartida entre la planificación de recursos empresariales y aplicaciones de CRM ).

Por estas y otras situaciones, la calidad de datos en tiempo real reduce el riesgo empresarial y corrige o mejora la información mientras está en movimiento en un proceso de negocio .

Perfilado

Mejorar continuamente la calidad de los datos es un reto cuando no se sabe el estado actual de los datos y su uso. Además, comprender los datos empresariales a través de profiling es un punto de partida para decidir qué datos necesitan especial atención.

¿Qué es el perfilado? Se trata de una serie de técnicas para identificar datos erróneos, datos nulos, datos incompletos, datos sin integridad referencial, datos que no se ajustan al formato requerido, patrones de información de negocio, tendencias, medias, desviaciones estándares, etc.

Es fundamental contar con un buen perfilado por dos motivos: 1) el análisis sobre el proyecto es realista y fidedigno y 2) nos permitirá a partir de la segunda iteración, medir y comparar la evolución de los indicadores de gobierno del proyecto de calidad.

En este sentido, para que el profiling se convirtierta en una técnica esencial para el DQ debe cumplir ciertos requisitos:

Debe ser reusable

Por lo general el profiling está centrado en la generación de estadísticas sobre los tipos de datos y los valores de una sola columna de una tabla en una base de datos .

Sin embargo, una buena herramienta debería revelar dependencias que llegaran a través de múltiples tablas, bases de datos y de sistemas .

Monitorización de datos

El seguimiento de datos es una forma de profiling, ya que cada vez que se utiliza mide el grado de avance de la calidad. Esta es la clave para corroborar la mejora continua de los datos.

Monitorización de procesos de calidad de datos

Esta función compara la fuente y el destino para verificar que los datos se cargan correctamente , lo cual es imprescindible en cualquier proceso de calidad de datos.

Componentes de la Arquitectura

La arquitectura está compuesta por varios elementos. Vamos a analizarlos:

Data Quality Web Services

Se trata de una facilidad para desarrollar web services que son llamados desde PowerCenter Web Services Hub con el propósito de invocar mappings conteniendo transformaciones de Informatica Data Quality u otros procesos o aplicativos llaman a estos web services. La ventaja fundamental es que permiten gestionar la información que entra a los sistemas, impidiendo entrada de información manual..

Identity Resolution

Proporciona un diccionario de las palabras más usadas en el país con el objeto de identificar y hacer match de la jerga.

AddressDoctor Software Library

Proporciona la funcionalidad de parseo, limpieza, validación y estandarización de direcciones así como de asignación de geo- coordenadas. Es el diccionario de la verdad indispensable para evitar tener cientos de variantes de calles en el sistema.

Data Explorer

Proporciona un entorno de cliente servidor para tres dimensiones de perfilado (columna, tabla, cross tabla), orphan analysis, validación clave, identificación y tagging de problemas de calidad.

Data Analyzer

Pensado para analizar, estandarizar, enriquecer, deduplicar, corregir y reportar todos los master data types incluyendo cliente, producto, inventario, activos y datos financieros. Permite desarrollar reglas de calidad customizadas según las necesidades concretas de cada cliente.

Data Quality Identity Match Option

Proporciona búsquedas, matching y muestra duplicados de datos almacenados en bases de datos relacionales y ficheros planos.

Post relacionados:

calidad de datos imprescindibles factores

Data Quality

El primer pilar en una solución de calidad de datos: Tecnología-Arquitectura

Técnicas DQ

Real Time DQ

Perfilado

Debe ser reusable

Monitorización de datos

Monitorización de procesos de calidad de datos

Componentes de la Arquitectura

Data Quality Web Services

Identity Resolution

AddressDoctor Software Library

Data Explorer

Data Analyzer

Data Quality Identity Match Option

Artículos relacionados

Mejora tus ventas en retail: estrategias para calidad de datos

Seguridad informática en las empresas: data loss vs data leakage

Market Intelligence: ¿cómo transformar datos en conocimiento útil?

El primer pilar en una solución de calidad de datos: Tecnología-Arquitectura

Técnicas DQ

Real Time DQ

Perfilado

Debe ser reusable

Monitorización de datos

Monitorización de procesos de calidad de datos

Componentes de la Arquitectura

Data Quality Web Services

Identity Resolution

AddressDoctor Software Library

Data Explorer

Data Analyzer

Data Quality Identity Match Option

Artículos relacionados

Mejora tus ventas en retail: estrategias para calidad de datos

Seguridad informática en las empresas: data loss vs data leakage

Market Intelligence: ¿cómo transformar datos en conocimiento útil?

Subscríbete a nuestro blog y recibe las últimas actualizaciones sobre gestión de datos.