El valor de la gestión de datos

Implementación del control de calidad de datos en data warehouse

Posted on Thu, Apr 17, 2014

Examinar las características de los procesos de evaluación de calidad de datos, valorar las diferentes opciones que pueden utilizarse para su implementación y tener claros algunos criterios en relación a la duración y particularidades del proyecto de DWH o sobre el tipo de herramientas empleadas, es necesario para culminar con éxito la implementación del control de calidad de datos en data warehouse.

 

Data warehouse overview resized 600

Créditos fotográficos: Hhultgren

 

El objetivo es garantizar la calidad de los datos con todos sus atributos y, por tanto, tras la implementación de un proceso de control de calidad de datos se asume que concurren, al menos, las siguientes circunstancias:

- Estabilidad de la calidad técnica de la fuente de datos, de acuerdo a las especificaciones del modelo de DWH y los procesos ETL.

- Definición de la calidad de datos de negocio por parte de los usuarios de negocio.

- Madurez en los métodos de análisis de calidad de datos empleados.

Por tanto, durante la fase de implementación hay que tener en cuenta que:

- La falta de adecuación de los datos que no cumplan los requerimientos de calidad impedirá su carga al Data Warehouse, y requerirá su corrección.

- Los datos que son adecuados en cuanto a calidad para un usuario de negocio pueden no serlo para otro.

- Los requerimientos de calidad de datos de negocio están sometidos a una constante transformación que es el resultados de la evolución de las técnicas de análisis.

- Los datos que no cumplan los requerimientos de uno de los usuarios de negocio no deberían usarse en sus métodos. En estos casos, a la vez que se practica la corrección de datos se pueden corregir aquéllos.

Uno de los aspectos que deben tenerse claros, cuando se busca gestionar el control sobre uno de los atributos más críticos del dato son los criterios necesarios para su calidad técnica:

- Ser únicos en su campo.

- Estar presentes en los campos que sea obligatorio.

- Presentar una integridad referencial.

- Ajustarse a los formatos de campo

- Compilarse con los valores aceptables.

- Encuadrarse dentro de la lógica de negocio.

 

ID 100124234 resized 600

Créditos fotográficos: "Green Tick Shows Quality And Excellence" by Stuart Miles 

Cómo abordar la implementación del control de la calidad de datos en DWH

Cuando la teoría queda clara y llega el momento de la puesta en marcha, hay que tomar una importante decisión que afectará al modo de abordar el proyecto. Existen dos variantes de la implementación del control de calidad de datos en data warehouse que se diferencian en la intervención o no de herramientas especializadas.

Un análisis de la implementación utilizando herramientas de ETL estándar, sin la presencia de herramientas especializadas de control de datos podría resumirse en:

- Fortalezas: esta forma de proceder supone un claro ahorro, ya que se evita el tener que asumir los costes de licencia. Implica una gran flexibilidad en el desarrollo de la organización de procesos, además de en los sistemas de IT, los formatos de datos y los protocolos de comunicación de datos.

- Oportunidades: plantea la posibilidad de contratación de personal altamente cualificado, algo que puede resultar muy beneficioso para la organización, y además es una opción perfectamente factible ya que existen en el mercado técnicas probadas y bien desarrolladas que permiten gestionar la calidad de los datos sin necesidad de una herramienta especializada.

- Puntos débiles: aumenta no sólo el plazo estimado para el desarrollo sino también el coste del mismo, desventaja a la que hay que sumar el coste adicional asociado a la documentación y actualización documental. Otro inconveniente de esta forma de llevar a cabo la implementación del control de calidad de datos en proyectos de DWH es la necesidad de formar a los nuevos empleados para que alcancen el conocimiento necesario de las características de la solución.

- Amenazas: la falta de métodos detallados de control de calidad, muy acusada por parte de los principales usuarios; y el riesgo que supone el carecer de personal cualificado durante las fases de desarrollo y operativa.

 

 picha aquí para descargarte una guía más completa sobre calidad de datos.

 

Por su parte, el llevar a cabo una implementación usando herramientas especializadas de control de datos implica:

- Fortalezas: reducción del coste y plazo de desarrollo, soporte de control de calidad de datos que el proveedor de a herramienta ETL suministra y, también muy importante, el control de los metadatos de calidad.

- Oportunidades:  la búsqueda y/o formación de personal cualificado y la flexibilidad tanto en sistemas de IT como en formatos de datos que se puede alcanzar a través del desarrollo de conectores especiales mantenidos de forma independiente.

- Puntos débiles: costes de licencia, falta de flexibilidad en el desarrollo de procesos de la organización, falta de flexibilidad en los sistemas de IT, formatos de datos y protocolo de comunicación de datos, a lo que hay que añadir el inconveniente de la necesidad contratar externamente la formación para el personal.

- Amenazas: que falte profundidad y detalle en la elaboración de los métodos de control de calidad por parte del proveedor o que no proporcione el soporte necesario, además del inconveniente de no contar con personal cualificado para implementar los requerimientos específicos usando herramientas especializadas de control de calidad de datos.

 

Cuando se tienen dudas respecto a qué camino tomar, puede resultar esclarecedor el tomar en consideración algunos de los siguientes criterios:

- Duración del proyecto de implementación de DWH.

- Heterogeneidad de herramientas ETL.

- Variedad de contratistas en el proyecto de DWH.

- Existencia de clientes del negocio que estén dispuestos a pagar por problemas de control de calidad de datos.

- Existencia de herramientas y métodos probados para gestionar la calidad de los datos que cumplan los requerimientos de calidad establecidos.

- Existencia de personal cualificado interviniente en la gestión de calidad de datos en DWH.

Post relacionados:

 

New Call-to-action

Topics: Data Quality