El valor de la gestión de datos

Cómo los metadatos evitan inconsistencias trabajando con Data Lake

Posted on Mon, Jun 12, 2017

Una gestión efectiva de los metadatos puede prevenir que los analistas que trabajan con data lakes creen inconsistencias que alteren los resultados de las aplicaciones de análisis de big data.

metadatos con data lake.jpg

Un data lake te permite incluir mucha información de una amplia gama de fuentes de datos para incluirla en un único repositorio. Sin embargo, esa masiva cantidad de información puede crear problemas a la hora de integrar y preparar los datos de manera consistente. Las aplicaciones de análisis de big data podrían tener problemas para extraer resultados, aunque esto es algo que una adecuada gestión de metadatos puede ayudar a evitar.

Una arquitectura de data lake ofrece a los analistas la capacidad de imponer sus propias estructuras y transformaciones en datasets según sea necesario. Este enfoque ofrece una mayor flexibilidad en el uso de datos, pero plantea un riesgo para la consistencia de los datos y el análisis. Es muy posible que diferentes usuarios deduzcan significados completamente diferentes del mismo conjunto de datos. El riesgo crece aún más cuando las aplicaciones analíticas incluyen conjuntos de datos externos cuya procedencia puede no ser totalmente conocida.

Las herramientas de preparación de datos brindan cierto alivio estandarizando los enfoques utilizados para el perfilado, evaluación y transformación de datos en bruto. Pero tales herramientas se utilizan a menudo de forma individual. Esto conduce, en el mejor de los casos a esfuerzos duplicados y en el peor de los casos a resultados analíticos incoherentes.

 

Descárgate aquí la guía "Data Lake: Superando las limitaciones del Data  Warehouse" y descubre todo lo que necesitas saber. 

 

Asociar herramientas de metadatos con colaboración

El objetivo es reducir la confusión, simplificar la interpretación de los datos y reducir el nivel de esfuerzo necesario para integrar y preparar los datos. Y eso se puede lograr combinando procesos de colaboración con el uso de herramientas de gestión de metadatos. Cuando se hace correctamente, mantener un conjunto compartido de definiciones de metadatos puede ayudar a fomentar el tratamiento consistente de los datos por los analistas, reduciendo así el riesgo de interpretaciones conflictivas.

Las modernas herramientas de gestión de metadatos están equipadas con métodos sofisticados para facilitar la colaboración. Por ejemplo, muchas herramientas ahora soportan hilos de discusión que se utilizan para compartir información actual y de contexto histórico sobre cómo se integran, preparan y utilizan los datos.

Alinear los pasos de integración y preparación de datos con las correspondientes definiciones de metadatos también proporciona una forma de chequear su bondad para asegurar que los datos se interpretan y se usan de manera consistente. Y esa consistencia recorrerá un largo camino hasta hacer que tu data lake sea una plataforma productiva consistente.

 

Características principales de una plataforma de gestión de Data Lake

Un data lake de big data suele verse como un repositorio de datos basado en Hadoop con un framework de procesamiento que se utiliza para gestionar la oferta y demanda de big data. Hadoop forma la primera capa del data lake, proporcionando el almacenamiento y los motores de proceso de datos. Para evitar que el “lago” se convierta en un “pantano” de datos, lo ideal es incorporar los principios de Data Lake Management que integran, organizan, administran, gobiernan y aseguran grandes volúmenes de datos estructurados y no estructurados para proporcionar información apta, confiable y segura para el negocio.

Los datos en bruto del data lake, se generan a partir de varias fuentes: registros de sitios web, servidores de bases de datos o aplicaciones, dispositivos IoT, medios sociales y datos de terceros.

El Big Data Management es el proceso de integrar, gobernar y asegurar datos en una plataforma de big data:

  • Big Data Integration, recopila datos de diversas fuentes dispares de datos los cuales son ingeridos, transformados, analizados, procesados y almacenados en un clúster Hadoop para proporcionar una vista unificada de los datos.
  • Big Data Governance, limpia, certifica y administra datos proporcionando datasets confiables que pueden ser consumidos o analizados por aplicaciones analíticas y otros productos de datos.
  • Big Data Security, protege los datos sensibles del Data Lake y el resto de la empresa. Como parte de la gran estrategia de datos, el equipo debe descubrir, identificar y garantizar que los datos de los clientes almacenados en weblogs, aplicaciones, bases de datos internas y aplicaciones de terceros estén protegidos según políticas definidas de seguridad de datos.

Universal Metadata Services recopila, almacena, indexa, administra y utiliza metadatos de una variedad de fuentes de datos para facilitar la búsqueda, el descubrimiento, la exploración y la automatización inteligente. Por ejemplo, una solución de gestión de datos de datos inteligente utiliza estos servicios de metadatos para encontrar, descubrir, explorar y preparar rápidamente datos para análisis de big data. 

Data Lake Management descubre, aprende y entiende continuamente los datos de la empresa tal como estos existen en el data lake, al tiempo que captura las relaciones, mejora la calidad e identifica los patrones de uso de cada interacción para medir el riesgo y garantizar la confianza. Data Lake Management ofrece a los analistas de datos, administradores de datos y arquitectos de datos una plataforma colaborativa de autoservicio con controles de gobernanza y seguridad para descubrir, catalogar y preparar datos para análisis de big data.

 

Data Lake

Topics: Data Lake