El valor de la gestión de datos

Data profiling, el primer paso en calidad de datos

Posted on Fri, Jan 13, 2017

Data profiling es el acto de analizar el contenido de tus datos. Junto a data profniling tenemos dos componentes más que integrarían data quality. Se trata de data correctio y data monitoring.

data_profiling.jpg

Créditos fotogáficos: Eskemar

Data correction es el acto de corregir tus datos cuando se encuentran por debajo de los estándares. Por otro lado, data monitoring es el acto continuo de establecer estándares de calidad de datos en un conjunto de métricas significativas para el negocio, revisar los resultados de una manera recurrente, y tomar medidas correctivas que puedan superar los umbrales aceptables de calidad.

Pero hoy nos centramos sólo en data profiling. El cual proporciona a las organizaciones la capacidad de analizar grandes cantidades de datos rápidamente en un proceso sistemático y repetible.

 

El análisis que data profiling lleva a cabo

Una herramienta de data profiling permite hacer distintos tipos de análisis, cuya combinación hace posible ganar una perspectiva mucho más completa sobre este activo. Entre ellos se encuentran:

  • Análisis de la exhaustividad: a la vista de sus resultados descubrirás con qué frecuencia un determinado atributo se rellena, y con qué frecuencia queda en blanco o aparece como nulo.
  • Análisis de distribución de valores: te permite averiguar cuál es la distribución de registros a través de diferentes valores para un atributo dado.
  • Análisis de unicidad: es el modo más rápido de conocer cuántos valores únicos (distintos) se encuentran para un atributo dado en todos los registros. Mediante esta analítica identificarás las duplicidades fácilmente.
  • Análisis de patrones: es el medio a través del que data profiling hace posible saber qué formatos se encontraron para un atributo determinado y cuál es la distribución de registros a través de ése u otros formatos.
  • Análisis de rango: se usa para descubrir cuáles son los valores mínimo, máximo y medio que se dan para un atributo determinado.

En la práctica, el data profiling puede agregar valor en una amplia variedad de situaciones, algo que seguramente ya sabes si lo utilizas habitualmente en tu organización. Algunos de los escenarios donde su aportación resulta más enriquecedora son:

a) Iniciativas de calidad de datos del sistema fuente. Uno de los objetivos de un proyecto de este tipo es tratar de corregir los problemas existentes y prevenir la aparición de otros futuros. La generación de perfiles de datos puede ayudar a maximizar el ROI del proyecto. Mediante data profiling se pueden identificar las áreas dentro del sistema que sufren los problemas de calidad de datos más graves y / o numerosos. El perfilado también facilitaría la detección de cuestiones de calidad en relación con entradas manuales incorrectas o interfaces erróneas del sistema.

b) Proyectos de migración de datos. La generación de perfiles de datos puede ayudar a minimizar el riesgo en el traslado de datos desde un sistema heredado hasta el nuevo de destino. Aquí, data profiling permitiría descubrir los problemas de calidad existentes antes de migrar datos. Así, podría actuarse sobre el código o introduciendo los cambios necesarios en el sistema objetivo.

c) Iniciativas de Data Warehousing e inteligencia empresarial. La nota común a ambos tipos de proyectos es la necesidad de recoger datos de sistemas dispares. En este caso, el perfilado puede ayudar a asegurar el éxito del proyecto mediante la identificación de tres tipos de problemas:

  • Los relacionados con la calidad de datos en origen, que habrán de corregirse allí.
  • Los de atributos de calidad que se pueden corregir en el procesamiento ETL.
  • Los que tienen que ver con el descubrimiento de reglas empresariales que podrían desembocar en la revocación del proyecto.

Por supuesto, todos estos beneficios se ven multiplicados cuando el perfilado de datos se lleva a cabo de forma automática, en vez de manual. Las herramientas de data profiling te ayudarán a ganar en velocidad, completitud del análisis permitiendo, en muchas ocasiones, disfrutar además de un repositorio centralizado para el almacén de datos y metadatos que facilite la compartición de información por los diferentes usuarios de negocio.

 

Guía introductoria a la migración de datos

Topics: Data Migration