En primer lugar, es importante aclarar brevemente la diferencia que hay entre un Data Lake y otros dos conceptos que a veces se confunden: un Data Warehouse y un Data Mart.
La diferencia fundamental es que los dos últimos tienen esquemas que han sido definidos para responder a ciertos requerimientos conocidos de informes y analíticas. Por el contrario, los Data Lakes están más enfocados al almacenamiento de datos con fines exploratorios y de curación.
La gestión de Data Lake es fundamental para asegurar que es posible obtener valor de esos datos. Las organizaciones necesitan datos dentro de unos plazos concretos y con unos niveles específicos de confiabilidad.
Por lo tanto, la gestión del Data Lake debe asegurar la productividad y la colaboración, así como facilitar la rápida identificación y acceso a unos datos confiables.
Elementos a considerar para la correcta gestión de un Data Lake
La gestión de un Data Lake obliga a enfrentarse a distintos desafíos, aunque algunos de los más importantes tienen que ver con:
- Acceso y consumo de datos: el Data Lake debe permitir un acceso eficiente a los datos, a través de conectores pre-construidos y sistemas de publicación y suscripción. Además de la latencia y la modalidad, hay que tener en cuenta aspectos como la preparación de datos, la integración con fuentes externas o la catalogación de datos.
- Ingesta y transformación de datos: independientemente de los métodos de carga escogidos, hay que prestar atención a la cantidad de tiempo necesaria para llevar a cabo esta tarea.
- Calidad de los datos: para resolver cualquier problema en relación a este asunto que pudiera darse en el Data Lake hay que buscar la máxima automatización posible. Es prioritario reducir la intervención manual en cualquier proceso de calidad de datos, puesto que ello, además de hacer mella en el rendimiento, incrementa las probabilidades de aparición de errores.
- Gobierno de datos: pese a tratarse de un entorno en autoservicio, en el Data Lake existen requisitos relativos al negocio que hay que observar. Lo mismo sucede con los requerimientos normativo que le son de aplicación y es preciso cumplir. Para estar en línea con estas exigencias, las capacidades de gobernabilidad deben incorporarse en el entorno del lago de datos. De esta forma también se mejora la colaboración. Sólo así se facilita la monitorización que permita ganar en visibilidad acerca de quién está accediendo a qué datos, cómo se están integrando o para qué lo están utilizando.
Tal vez te interese leer:
Cloud: ¿cómo definir una buena estrategia de datos en la nube?
- Seguridad de datos: es posible que en el Data Lake se contengan datos confidenciales. Para garantizar una protección efectiva, los datos deben identificarse (perfilado) y enmascararse antes de quedar disponibles para los analistas o desarrolladores.
- Catalogación de datos: un aspecto esencial puesto que, sin esta capacidad, los usuarios no podrían descubrir fácilmente qué información está disponible para ellos dentro del lago de datos.
- Preparación de datos: la preparación de los datos antes del análisis implica varios procesos diferentes que implican distintos componentes, como los metadatos, y acciones diversas, que pueden ir desde la limpieza al perfilado. La preparación es un paso que no hay que saltarse puesto que permite detectar inconsistencias, faltas de completitud y problemas de exactitud y actuar en consecuencia, cuando aún se está a tiempo.
Existen muchos aspectos que influyen en la gestión de un lago de datos. La diligencia a la hora de plantearla es determinante para obtener el valor de Big Data.