El perfilamiento de datos, primer paso en los procesos de calidad

En este post te explicamos la función del perfilamiento de datos, un primer paso dentro de un proyecto de calidad de datos que evalúa y cuantifica los errores en los datos.


 perfilamiento de datos

 

Los proyectos de calidad de datos necesitan definir un marco de actuación que siga una estrategia orientada a una serie de objetivos que solo alcanzaremos tras desarrollar un determinado plan de actuación. Dentro de este contexto, el perfilamiento de datos forma parte de un proceso fundamental que se realiza previamente al diseño de las reglas de calidad, conocido como Data Discovery, en el que, por otra parte, se incluye también la identificación de ineficiencias y redundancias.

Con la aplicación del Data Discovery, un proceso complejo de importancia clave para explorar modelos y/o fuentes de datos indocumentados, logramos identificarlos y medirlos. En concreto, con el perfilado se lleva a cabo una auditoría de calidad de datos para así encontrar la raíz de los errores como un primer paso para buscar solución a problemas la calidad de datos en la empresa provocados por un sinfín de motivos, como las migraciones, el data entry, el aumento de datos, la diversidad de fuentes o, entre un largo etcétera, los errores de carga.

 

El perfilado, clave en el control del ciclo de vida de la calidad del dato

Los procesos de calidad implementados, por otra parte, son continuos, ya que se basan en el control de ciclo de vida de la calidad de los datos. Por lo general, el control se lleva a cabo mediante el perfilamiento, realizando un perfilado de la estructura y el contenido, así como una posterior limpieza, mediante actuaciones que siguen un orden lógico, desde el descubrimiento y el análisis hasta la definición, el desarrollo, la revisión y el monitoreo.

Posteriormente, en efecto, se realiza una limpieza de los datos a partir de la información que nos revela el perfilamiento. Será entonces cuando se definan las reglas y se establezcan objetivos en función de las necesidades de la empresa, pues más allá de unos mínimos, la calidad del dato es un concepto flexible que ha de adaptarse a los requerimientos de la organización, buscando un equilibrio ente costes y funcionalidad.

Aunque idealmente el proceso debería hacerse de forma global, no departamental, es habitual implementar los procesos de forma progresiva. Por lo tanto, si las soluciones de gobernabilidad y calidad de datos carecen de un enfoque global, al menos deben ser escalables, lo que supone llevar a cabo el proceso como mantenimiento y amplicación, en cuyo caso el perfilado debe ir identificando, clasificando y cuantificando problemas de calidad en todas las fuentes.

Como auditoría de calidad de datos, el perfilado adopta la forma de un cuadro de mando que nos informa de forma concreta, a nivel cualitativo y estadístico de la calidad de los datos (errores, porcentajes de datos duplicados, redundantes, incompletos, etc.) en un inicio, antes de establecer iniciativas de corrección dentro del proyecto de calidad de datos.

Tras llevar a cabo el perfilado, incluido dentro del Data Discovery, se ejecuta el Data Quality y una serie de actividades de control de la calidad, como el Data Assurance, Data Cleansing o el Data Profiling, siguiendo procedimientos claros desde un inicio. De acuerdo con la metolología de Firstlogic, un proceso de calidad de datos cubre una serie de fases que abarcan desde la evaluación (perfilamiento) hasta el reporting final, en el que se presentan informes acerca del proceso de calidad de datos implementado. En el ínterin, habremos llevado a cabo otros procesos no menos importantes, como el análisis, la categorización, la estandarización, corrección, mejora, cruce de datos y la consolidación, por este orden. Siempre teniendo en cuenta que se trata de un proceso de mejora continua.

Fuente imagen: Stuart Miles / FreeDigitalPhotos.net

 

Post relacionados:

 
 
 
 
New Call-to-action
 

Artículos relacionados

Subscríbete a nuestro blog y recibe las últimas actualizaciones sobre gestión de datos.

Descubre contenido nuevo todos los días para profundizar la transformación digital en tu organización.