El valor de la gestión de datos

¿Qué es metadatos y cuál es su importancia en Big Data?

Posted on Mon, Apr 17, 2017

Para definir qué es metadatos, vamos a realizar una analogía con la logística de la distribución. De esta forma podremos explicar claramente qué es metadatos, y por qué es crítico en la gestión de los datos en un entorno de big data.

que_son_metadatos.jpg

 Créditos fotográficos: stevanovicigor

Qué es metadatos y qué tiene que ver con la cadena de suministro

Cuando envías un paquete a un destino internacional, si tienes un problema con la entrega del pedido, agradeces tener información acerca de en qué parte de la ruta se encuentra tu mercancía. Las empresas logísticas mantienen la información de todos los bienes en tránsito para poder seguir el movimiento y la entrega con éxito de los paquetes a lo largo de todo el proceso de envío.

Los metadatos proporcionan este mismo tipo de visibilidad en ese entorno rico en datos del big data. Los datos entran y salen de las empresas, y también se mueven dentro de ellas. Hacer un seguimiento a los cambios de los datos y detectar un proceso que causa problemas cuando se realiza un análisis de datos es difícil si no tienes información sobre los datos y su proceso de movimiento. Hoy en día, incluso el cambio de una sola columna en una tabla de origen puede afectar a cientos de informes que utilizan esos datos, por lo que es muy importante saber de antemano qué columnas se verán afectadas.

Entonces, ¿qué es metadatos?.

  • Los metadatos proporcionan información sobre cada conjunto de datos. Por ejemplo, el tamaño, el esquema de una base de datos, el formato, la última hora de modificación, las listas de control de acceso, el uso, etc.
  • El uso de metadatos permite la gestión de una plataforma y arquitectura de data lake escalable, así como data governance.
  • Los metadatos se suelen almacenar en un catálogo central para proporcionar a los usuarios información sobre los conjuntos de datos disponibles.

 

El valor de los metadatos en tiempos de big data

En los repositorios tradicionales, los datos están organizados en filas y columnas configurando un modelo de metadatos que, por sus características estructurales, podría denominarse nativo. Estas fuentes de datos pueden proporcionar una estructura lógica a través de metadatos fácilmente obtenidos, pero eso no sucede con los grandes datos.

Big Data no tiene esta disponibilidad nativa, requiere de procesamiento analítico para poder construir los principios de este nuevo tipo de definiciones de metadatos. Para ello, debe recurrir a fuentes externas, que resultarán esenciales para desbloquear un nuevo significado.

Una vez identificados, estos metadatos pueden correlacionarse con los metadatos definidos a partir de otras fuentes de datos tradicionales para proporcionar un modelo global de metadatos completo para toda la empresa, donde fuentes estructuradas y no estructuradas se empleen para un mismo propósito.

Saber qué es metadatos es entender que éstos hacen posible:

  • Vincular los activos de datos de la empresa asociando criterios relevantes.
  • Descartar la información irrelevante ya durante el proceso de búsqueda.
  • Crear resultados de alta confianza para cada consulta.
  • Localizar rápidamente la información, tanto para el reporting como para el análisis, correcta entre todo el contenido informacional de la organización.

Los metadatos pueden enlazar todo el contenido relacionado uno o más de sus atributos, independientemente de la ubicación o el formato y, por eso, son el aliado Big Data que la organización necesita para ganar en coherencia y consistencia.

 

New Call-to-action

Topics: Master Data Management